تجزیه کننده آنلاین رایگان DOCX برای استخراج متن، تصاویر و تصاویر از DOCX یا DOC طراحی شده است.

تجزیه و تحلیل اسناد Word با استفاده از REST API در پایتون

در موارد مختلف، ممکن است نیاز به تجزیه اسناد Word و استخراج تصاویر یا متن داشته باشیم. استخراج تصاویر و متن از اسناد Word می تواند برای تجزیه و تحلیل متن، استفاده مجدد یا ترکیب آنها در اسناد دیگر مفید باشد. ما به راحتی می‌توانیم فایل‌های DOC یا DOCX را تجزیه کنیم و تمام تصاویر/متن را به‌صورت برنامه‌نویسی در فضای ابری استخراج کنیم. در این مقاله، نحوه تجزیه اسناد Word را با استفاده از REST API در پایتون خواهیم آموخت.

موضوعات زیر در این مقاله پوشش داده خواهد شد:

Word Document Parser REST API و Python SDK

برای تجزیه اسناد Word، از Python SDK of GroupDocs.Parser Cloud API استفاده خواهیم کرد. لطفاً آن را با استفاده از دستور زیر در کنسول برای تجزیه یک سند نصب کنید:

pip install groupdocs_parser_cloud

لطفاً قبل از انجام مراحل ذکر شده [شناسه مشتری و راز خود را از داشبورد 4 دریافت کنید. هنگامی که شناسه و راز خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

اسناد Word را تجزیه کنید و تصاویر را با استفاده از REST API در پایتون استخراج کنید

با دنبال کردن مراحل زیر می‌توانیم اسناد Word را تجزیه و تصاویر را به صورت برنامه‌نویسی استخراج کنیم:

سند را آپلود کنید

ابتدا سند Word (DOCX) را با استفاده از مثال کد زیر در Cloud آپلود می کنیم:

# نمونه ای از API ایجاد کنید
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# درخواست فایل آپلود ایجاد کنید
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# آپلود فایل
response = file_api.upload_file(request)

در نتیجه، فایل DOCX آپلود شده در بخش فایل ها داشبورد در فضای ابری در دسترس خواهد بود.

استخراج تصاویر از اسناد Word با استفاده از پایتون

با دنبال کردن مراحل زیر می توانیم به راحتی تمام تصاویر را از اسناد Word به صورت برنامه نویسی استخراج کنیم.

  • ابتدا یک نمونه از ParseApi ایجاد کنید.
  • سپس یک نمونه از FileInfo ایجاد کنید.
  • سپس مسیر فایل DOCX ورودی را تنظیم کنید.
  • بعد، یک نمونه از ImageOptions ایجاد کنید.
  • سپس، FileInfo را به ImageOptions اختصاص دهید.
  • پس از آن، ImagesRequest را با ImageOptions به عنوان آرگومان ایجاد کنید.
  • در نهایت، با فراخوانی متد ParseApi.images() با ImageRequest، تصاویر را استخراج کنید.

نمونه کد زیر نحوه استخراج تصاویر از فایل DOCX با استفاده از تجزیه اسناد REST API در پایتون را نشان می دهد.

# مقداردهی اولیه API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# درخواست ایجاد تصاویر
request = groupdocs_parser_cloud.ImagesRequest(options)

# دریافت تصاویر
result = parseApi.images(request)
ورد DOCX را تجزیه و تصاویر را با استفاده از پایتون تجزیه کلمه docx استخراج کنید

اسناد Word را تجزیه کنید و تصاویر را با استفاده از Word Parser Online REST API در پایتون استخراج کنید.

دانلود تصاویر استخراج شده

نمونه کد بالا تصاویر استخراج شده را با تجزیه کننده فایل word در فضای ابری ذخیره می کند. می توانیم این تصاویر را با استفاده از نمونه کد زیر دانلود کنیم:

# مقداردهی اولیه API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# دریافت لیست فایل ها
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# تصاویر را یکی یکی دانلود کنید
for data in response.value:
    # درخواست فایل دانلود را ایجاد کنید
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # دریافت فایل
    response = file_api.download_file(request)
    # فایل دانلود شده را به دایرکتوری کاری خود منتقل کنید
    shutil.move(response, "C:\\Files\\parser\\")

استخراج متن از اسناد Word با استفاده از REST API در پایتون

با دنبال کردن مراحل زیر می‌توانیم به راحتی تمام متن را از اسناد Word به صورت برنامه‌نویسی استخراج کنیم.

  • ابتدا یک نمونه از ParseApi ایجاد کنید.
  • سپس یک نمونه از FileInfo ایجاد کنید.
  • سپس مسیر فایل DOCX ورودی را تنظیم کنید.
  • بعد، یک نمونه از TextOptions ایجاد کنید.
  • سپس FileInfo را به TextOptions اختصاص دهید.
  • پس از آن، TextRequest را با TextOptions به عنوان آرگومان ایجاد کنید.
  • در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.

مثال کد زیر نحوه استخراج متن از فایل DOCX با استفاده از docx parser REST API را نشان می دهد.

# مقداردهی اولیه API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# درخواست متن ایجاد کنید
request = groupdocs_parser_cloud.TextRequest(options)

# دریافت متن
result = parseApi.text(request)
print("Text: " + result.text)
استخراج متن از Word Documents DOCX با استفاده از REST API در پایتون

استخراج متن از اسناد Word با استفاده از REST API در پایتون.

آنلاین را امتحان کنید

چگونه از نرم افزار تجزیه اسناد به صورت آنلاین رایگان استفاده کنیم؟ لطفاً ابزار تجزیه آنلاین رایگان DOCX زیر را امتحان کنید، که با استفاده از API پایتون سند word تجزیه شده بالا ایجاد شده است. https://products.groupdocs.app/parser/docx

نتیجه

در این مقاله یاد گرفتیم که چگونه اسناد Word را با استفاده از word parser در فضای ابری تجزیه کنیم. ما همچنین نحوه استخراج تصاویر و متن از فایل های DOCX را با استفاده از تجزیه docx Python دیده ایم. این مقاله همچنین نحوه آپلود برنامه‌نویسی یک فایل DOCX در فضای ابری و دانلود تصاویر استخراج‌شده از Cloud را توضیح داد. علاوه بر این، می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه می‌کنیم که به شما امکان می‌دهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آن‌ها تعامل داشته باشید. در صورت وجود هرگونه ابهامی در مورد تجزیه اسناد و فایل‌های تجزیه، لطفاً با ما در [تالار گفت‌وگو13 تماس بگیرید.

همچنین ببینید