در موارد مختلف، ممکن است نیاز به تجزیه اسناد Word و استخراج تصاویر یا متن داشته باشیم. استخراج تصاویر و متن از اسناد Word می تواند برای تجزیه و تحلیل متن، استفاده مجدد یا ترکیب آنها در اسناد دیگر مفید باشد. ما به راحتی میتوانیم فایلهای DOC یا DOCX را تجزیه کنیم و تمام تصاویر/متن را بهصورت برنامهنویسی در فضای ابری استخراج کنیم. در این مقاله، نحوه تجزیه اسناد Word را با استفاده از REST API در پایتون خواهیم آموخت.
موضوعات زیر در این مقاله پوشش داده خواهد شد:
- Word Document Parser REST API و Python SDK
- اسناد Word را تجزیه کنید و تصاویر را با استفاده از REST API در پایتون استخراج کنید
- استخراج متن از اسناد Word با استفاده از REST API در پایتون
Word Document Parser REST API و Python SDK
برای تجزیه اسناد Word، از Python SDK of GroupDocs.Parser Cloud API استفاده خواهیم کرد. لطفاً آن را با استفاده از دستور زیر در کنسول برای تجزیه یک سند نصب کنید:
pip install groupdocs_parser_cloud
لطفاً قبل از انجام مراحل ذکر شده [شناسه مشتری و راز خود را از داشبورد 4 دریافت کنید. هنگامی که شناسه و راز خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
اسناد Word را تجزیه کنید و تصاویر را با استفاده از REST API در پایتون استخراج کنید
با دنبال کردن مراحل زیر میتوانیم اسناد Word را تجزیه و تصاویر را به صورت برنامهنویسی استخراج کنیم:
- آپلود فایل DOCX در Cloud
- استخراج تصاویر از اسناد Word با استفاده از Python
- دانلود تصاویر استخراج شده
سند را آپلود کنید
ابتدا سند Word (DOCX) را با استفاده از مثال کد زیر در Cloud آپلود می کنیم:
# نمونه ای از API ایجاد کنید
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# درخواست فایل آپلود ایجاد کنید
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# آپلود فایل
response = file_api.upload_file(request)
در نتیجه، فایل DOCX آپلود شده در بخش فایل ها داشبورد در فضای ابری در دسترس خواهد بود.
استخراج تصاویر از اسناد Word با استفاده از پایتون
با دنبال کردن مراحل زیر می توانیم به راحتی تمام تصاویر را از اسناد Word به صورت برنامه نویسی استخراج کنیم.
- ابتدا یک نمونه از ParseApi ایجاد کنید.
- سپس یک نمونه از FileInfo ایجاد کنید.
- سپس مسیر فایل DOCX ورودی را تنظیم کنید.
- بعد، یک نمونه از ImageOptions ایجاد کنید.
- سپس، FileInfo را به ImageOptions اختصاص دهید.
- پس از آن، ImagesRequest را با ImageOptions به عنوان آرگومان ایجاد کنید.
- در نهایت، با فراخوانی متد ParseApi.images() با ImageRequest، تصاویر را استخراج کنید.
نمونه کد زیر نحوه استخراج تصاویر از فایل DOCX با استفاده از تجزیه اسناد REST API در پایتون را نشان می دهد.
# مقداردهی اولیه API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# درخواست ایجاد تصاویر
request = groupdocs_parser_cloud.ImagesRequest(options)
# دریافت تصاویر
result = parseApi.images(request)
دانلود تصاویر استخراج شده
نمونه کد بالا تصاویر استخراج شده را با تجزیه کننده فایل word در فضای ابری ذخیره می کند. می توانیم این تصاویر را با استفاده از نمونه کد زیر دانلود کنیم:
# مقداردهی اولیه API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# دریافت لیست فایل ها
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# تصاویر را یکی یکی دانلود کنید
for data in response.value:
# درخواست فایل دانلود را ایجاد کنید
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# دریافت فایل
response = file_api.download_file(request)
# فایل دانلود شده را به دایرکتوری کاری خود منتقل کنید
shutil.move(response, "C:\\Files\\parser\\")
استخراج متن از اسناد Word با استفاده از REST API در پایتون
با دنبال کردن مراحل زیر میتوانیم به راحتی تمام متن را از اسناد Word به صورت برنامهنویسی استخراج کنیم.
- ابتدا یک نمونه از ParseApi ایجاد کنید.
- سپس یک نمونه از FileInfo ایجاد کنید.
- سپس مسیر فایل DOCX ورودی را تنظیم کنید.
- بعد، یک نمونه از TextOptions ایجاد کنید.
- سپس FileInfo را به TextOptions اختصاص دهید.
- پس از آن، TextRequest را با TextOptions به عنوان آرگومان ایجاد کنید.
- در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.
مثال کد زیر نحوه استخراج متن از فایل DOCX با استفاده از docx parser REST API را نشان می دهد.
# مقداردهی اولیه API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# درخواست متن ایجاد کنید
request = groupdocs_parser_cloud.TextRequest(options)
# دریافت متن
result = parseApi.text(request)
print("Text: " + result.text)
آنلاین را امتحان کنید
چگونه از نرم افزار تجزیه اسناد به صورت آنلاین رایگان استفاده کنیم؟ لطفاً ابزار تجزیه آنلاین رایگان DOCX زیر را امتحان کنید، که با استفاده از API پایتون سند word تجزیه شده بالا ایجاد شده است. https://products.groupdocs.app/parser/docx
نتیجه
در این مقاله یاد گرفتیم که چگونه اسناد Word را با استفاده از word parser در فضای ابری تجزیه کنیم. ما همچنین نحوه استخراج تصاویر و متن از فایل های DOCX را با استفاده از تجزیه docx Python دیده ایم. این مقاله همچنین نحوه آپلود برنامهنویسی یک فایل DOCX در فضای ابری و دانلود تصاویر استخراجشده از Cloud را توضیح داد. علاوه بر این، میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه میکنیم که به شما امکان میدهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آنها تعامل داشته باشید. در صورت وجود هرگونه ابهامی در مورد تجزیه اسناد و فایلهای تجزیه، لطفاً با ما در [تالار گفتوگو13 تماس بگیرید.