تم تصميم Free Online DOCX Parser لاستخراج النصوص والصور والصور من DOCX أو DOC.

تحليل مستندات Word باستخدام REST API في Python

في حالات مختلفة ، قد نحتاج إلى تحليل مستندات Word واستخراج الصور أو النصوص. يمكن أن يكون استخراج الصور والنصوص من مستندات Word مفيدًا في تحليل النص أو إعادة استخدامها أو دمجها في مستندات أخرى. يمكننا بسهولة تحليل ملفات DOC أو DOCX واستخراج جميع الصور / النص برمجيًا على السحابة. في هذه المقالة ، سوف نتعلم كيفية تحليل مستندات Word باستخدام واجهة برمجة تطبيقات REST في Python.

سيتم تناول الموضوعات التالية في هذه المقالة:

Word Document Parser REST API و Python SDK

لتحليل مستندات Word ، سنستخدم Python SDK of GroupDocs.Parser Cloud API. يرجى تثبيته باستخدام الأمر التالي في وحدة التحكم لتحليل مستند:

pip install groupdocs_parser_cloud

يرجى الحصول على معرف العميل والسرية من لوحة التحكم قبل اتباع الخطوات المذكورة. بمجرد حصولك على المعرف والسر الخاص بك ، قم بإضافة الرمز كما هو موضح أدناه:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

تحليل مستندات Word واستخراج الصور باستخدام REST API في Python

يمكننا تحليل مستندات Word واستخراج الصور برمجيًا باتباع الخطوات الموضحة أدناه:

قم بتحميل المستند

أولاً ، سنقوم بتحميل مستند Word (DOCX) إلى السحابة باستخدام مثال الرمز الوارد أدناه:

# إنشاء مثيل من API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# طلب إنشاء ملف تحميل
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# رفع ملف
response = file_api.upload_file(request)

نتيجة لذلك ، سيكون ملف DOCX الذي تم تحميله متاحًا في قسم الملفات من لوحة المعلومات على السحابة.

استخراج الصور من مستندات Word باستخدام Python

يمكننا بسهولة استخراج جميع الصور من مستندات Word برمجيًا باتباع الخطوات الواردة أدناه.

  • أولاً ، قم بإنشاء مثيل لـ ParseApi.
  • بعد ذلك ، قم بإنشاء مثيل FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف DOCX للإدخال.
  • بعد ذلك ، قم بإنشاء مثيل ImageOptions.
  • ثم قم بتعيين FileInfo إلى ImageOptions.
  • بعد ذلك ، قم بإنشاء ImagesRequest باستخدام ImageOptions كوسيطة.
  • أخيرًا ، استخرج الصور عن طريق استدعاء طريقة ParseApi.images() باستخدام ImageRequest.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج الصور من ملف DOCX باستخدام تحليل المستند REST API في Python.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات الصورة
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# طلب إنشاء الصور
request = groupdocs_parser_cloud.ImagesRequest(options)

# احصل على الصور
result = parseApi.images(request)
تحليل Word DOCX واستخراج الصور باستخدام python parse word docx

تحليل مستندات Word واستخراج الصور باستخدام Word Parser Online REST API في Python.

تنزيل الصور المستخرجة

سيحفظ نموذج الكود أعلاه الصور المستخرجة باستخدام محلل ملف الكلمات على السحابة. يمكننا تنزيل هذه الصور باستخدام مثال الرمز الموضح أدناه:

# عمليات تهيئة API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# الحصول على قائمة الملفات
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# قم بتنزيل الصور واحدة تلو الأخرى
for data in response.value:
    # طلب إنشاء ملف تنزيل
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # تحميل الملف
    response = file_api.download_file(request)
    # انقل الملف الذي تم تنزيله إلى دليل العمل الخاص بك
    shutil.move(response, "C:\\Files\\parser\\")

استخراج النص من مستندات Word باستخدام REST API في Python

يمكننا بسهولة استخراج كل النص من مستندات Word برمجيًا باتباع الخطوات الواردة أدناه.

  • أولاً ، قم بإنشاء مثيل لـ ParseApi.
  • بعد ذلك ، قم بإنشاء مثيل FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف DOCX للإدخال.
  • بعد ذلك ، قم بإنشاء مثيل لـ TextOptions.
  • ثم قم بتعيين FileInfo إلى TextOptions.
  • بعد ذلك ، قم بإنشاء TextRequest باستخدام TextOptions كوسيطة.
  • أخيرًا ، احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text() باستخدام TextRequest.

يوضح المثال التالي من التعليمات البرمجية كيفية استخراج نص من ملف DOCX باستخدام محلل docx REST API.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات النص
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# إنشاء طلب نصي
request = groupdocs_parser_cloud.TextRequest(options)

# الحصول على النص
result = parseApi.text(request)
print("Text: " + result.text)
استخراج نص من مستندات Word DOCX باستخدام REST API في Python

استخراج النص من مستندات Word باستخدام REST API في Python.

جرب عبر الإنترنت

كيفية استخدام برنامج تحليل المستندات على الإنترنت مجانًا؟ يرجى تجربة أداة تحليل DOCX المجانية التالية عبر الإنترنت ، والتي تم تطويرها باستخدام تحليل مستند Python API أعلاه. https://products.groupdocs.app/parser/docx

خاتمة

في هذه المقالة ، تعلمنا كيفية تحليل مستندات Word باستخدام محلل الكلمات على السحابة. لقد رأينا أيضًا كيفية استخراج الصور والنصوص من ملفات DOCX باستخدام تحليل docx Python. توضح هذه المقالة أيضًا كيفية تحميل ملف DOCX برمجيًا إلى السحابة وتنزيل الصور المستخرجة من السحابة. بالإضافة إلى ذلك ، يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. في حالة وجود أي غموض حول تحليل المستندات وتحليل الملفات ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا