استخراج الصور من مستندات PDF

قد تحتاج إلى استخراج الصور من مستندات PDF أو Word لإعادة استخدامها. يمكنك بسهولة استخراج الصور من مستندات PDF برمجيًا على السحابة. تشرح هذه المقالة كيفية استخراج الصور من مستندات PDF باستخدام واجهة برمجة تطبيقات REST في Python.

سيتم تناول الموضوعات التالية في هذه المقالة:

محلل المستندات REST API و Python SDK

لاستخراج الصور من مستند PDF ، سأستخدم Python SDK of GroupDocs.Parser Cloud API. يسمح لك بتحليل البيانات من جميع أنواع المستندات الشائعة. يمكنك استخراج النص والصور وتحليل البيانات بواسطة قالب باستخدام SDK. كما أنها توفر حزم SDK لـ .NET و Java و PHP و Ruby و Node.js باعتبارها أعضاء عائلة محلل المستندات لواجهة برمجة التطبيقات السحابية.

يمكنك تثبيت GroupDocs.Parser Cloud على مشروع Python الخاص بك باستخدام pip (package installer for python) باستخدام الأمر التالي في وحدة التحكم:

pip install groupdocs_parser_cloud

يرجى الحصول على معرّف العميل وسر العميل من لوحة القيادة قبل البدء في اتباع الخطوات وأمثلة الكود المتاحة. بمجرد حصولك على معرّف العميل والسرية ، أضف الرمز كما هو موضح أدناه:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

استخراج الصور من PDF باستخدام واجهة برمجة تطبيقات REST في Python

يمكنك استخراج الصور من مستندات PDF باتباع الخطوات البسيطة المذكورة أدناه:

قم بتحميل المستند

بادئ ذي بدء ، قم بتحميل مستند PDF إلى السحابة باستخدام مثال الرمز الوارد أدناه:

# تهيئة API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

نتيجة لذلك ، سيكون ملف PDF الذي تم تحميله (sample.pdf) متاحًا في قسم الملفات من لوحة المعلومات الخاصة بك على السحابة.

استخراج كل الصور من مستند PDF باستخدام Python

يمكنك بسهولة استخراج جميع الصور من ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • تحديد خيارات الصورة
  • حدد المسار لملف PDF
  • إنشاء طلبات الصور
  • احصل على النتائج باستدعاء طريقة ParseApi.images()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج جميع الصور من مستند PDF باستخدام واجهة برمجة تطبيقات REST.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# تحديد خيارات الصورة
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# إنشاء طلب
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
استخراج جميع الصور من وثيقة PDF.

استخراج جميع الصور من وثيقة PDF.

تنزيل الصور المستخرجة

نموذج الكود أعلاه سيحفظ الصور المستخرجة على السحابة. يمكنك تنزيل هذه الصور باستخدام نموذج الرمز الوارد أدناه:

# تهيئة API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# تحميل الصورة 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# انقل الملف الذي تم تنزيله إلى دليل العمل الخاص بك
shutil.move(response, "C:\\Files\\Images")

حفظ الصور بأرقام الصفحات من مستندات PDF باستخدام Python

يمكنك بسهولة استخراج الصور من صفحات معينة من ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • تحديد خيارات الصورة
  • قم بتوفير المسار لملف PDF
  • قم بتعيين رقم صفحة البداية
  • تعيين عدد الصفحات لاستخراجها
  • إنشاء طلبات الصور
  • احصل على النتائج عن طريق استدعاء طريقة ParseApi.images()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج الصور حسب نطاق أرقام الصفحات من مستند PDF باستخدام واجهة برمجة تطبيقات REST. برجاء اتباع الخطوات المذكورة سابقاً لتنزيل الصور المستخرجة.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# تحديد خيارات الصورة
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# تحديد نطاق الصفحات
options.start_page_number = 1
options.count_pages_to_extract = 1

# إنشاء طلب
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
استخراج الصور حسب نطاق رقم الصفحة من وثيقة PDF.

استخراج الصور حسب نطاق رقم الصفحة من وثيقة PDF.

احصل على صور من مستند مرفق مع PDF باستخدام Python

يمكنك استخراج الصور من مستند داخل حاوية ، والمتاحة كمرفق في ملف PDF برمجيًا باتباع الخطوات المذكورة أدناه.

  • قم بإنشاء مثيل لـ ParseApi
  • تحديد خيارات الصورة
  • حدد المسار لملف PDF
  • تحديد معلومات الحاوية
  • قم بتوفير المسار النسبي للمستند الداخلي
  • قم بتعيين رقم صفحة البداية
  • تعيين عدد الصفحات لاستخراجها
  • إنشاء طلبات الصور
  • احصل على النتائج باستدعاء طريقة ParseApi.images()

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج الصور من مستند داخل مستند PDF باستخدام واجهة برمجة تطبيقات REST. برجاء اتباع الخطوات المذكورة سابقاً لتنزيل الصور المستخرجة.

# تهيئة API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# تحديد خيارات الصورة
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# تعيين عنصر الحاوية
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# تحديد نطاق الصفحات
options.start_page_number = 2
options.count_pages_to_extract = 1

# إنشاء طلب
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
استخراج الصور من الوثيقة المرفقة في وثيقة PDF

استخراج الصور من الوثيقة المرفقة في وثيقة PDF.

جرب عبر الإنترنت

يرجى تجربة أداة تحليل PDF المجانية التالية عبر الإنترنت ، والتي تم تطويرها باستخدام واجهة برمجة التطبيقات المذكورة أعلاه. https://products.groupdocs.app/parser/pdf

خاتمة

في هذه المقالة ، تعلمت كيفية استخراج الصور من مستندات PDF على السحابة. توضح هذه المقالة أيضًا كيفية تحميل ملف PDF برمجيًا على السحابة. لقد تعلمت أيضًا كيفية تنزيل الصور المستخرجة باستخدام SDK. يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. في حالة وجود أي غموض ، لا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا