استخراج تصاویر از اسناد PDF

ممکن است لازم باشد تصاویر را از اسناد PDF یا Word خود استخراج کنید تا دوباره از آنها استفاده کنید. به راحتی می توانید تصاویر را از اسناد PDF به صورت برنامه ریزی شده در فضای ابری استخراج کنید. در این مقاله نحوه استخراج تصاویر از اسناد PDF با استفاده از REST API در پایتون توضیح داده می شود.

موضوعات زیر در این مقاله پوشش داده خواهد شد:

Document Parser REST API و Python SDK

برای استخراج تصاویر از یک سند PDF، از Python SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این امکان را به شما می دهد تا داده ها را از همه انواع سند محبوب تجزیه کنید. با استفاده از SDK می‌توانید متن، تصاویر و داده‌ها را توسط یک الگو استخراج کنید. همچنین SDK های .NET، جاوا، PHP، Ruby و Node.js را به عنوان [اعضای خانواده تجزیه کننده اسناد3 برای Cloud API ارائه می کند.

می‌توانید با استفاده از دستور زیر در کنسول، GroupDocs.Parser Cloud را با پیپ (package installer for python) در پروژه پایتون خود نصب کنید:

pip install groupdocs_parser_cloud

لطفاً قبل از شروع به دنبال کردن مراحل و نمونه کدهای موجود، شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید. هنگامی که شناسه مشتری و Secret خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

استخراج تصاویر از PDF با استفاده از REST API در پایتون

با دنبال کردن مراحل ساده زیر می توانید تصاویر را از اسناد PDF استخراج کنید:

سند را آپلود کنید

اول از همه، سند PDF را با استفاده از مثال کد زیر در Cloud آپلود کنید:

# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

در نتیجه، فایل PDF آپلود شده (sample.pdf) در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.

تمام تصاویر را از سند PDF با استفاده از پایتون استخراج کنید

با انجام مراحل ذکر شده در زیر می توانید به راحتی تمامی تصاویر را از فایل PDF به صورت برنامه نویسی استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • ImageOptions را تعریف کنید
  • مسیر فایل PDF را تنظیم کنید
  • ImagesRequest ایجاد کنید
  • با فراخوانی روش ParseApi.images() به نتیجه برسید

نمونه کد زیر نحوه استخراج تمام تصاویر از یک سند PDF را با استفاده از REST API نشان می دهد.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
تمام تصاویر را از سند PDF استخراج کنید.

تمام تصاویر را از سند PDF استخراج کنید.

دانلود تصاویر استخراج شده

نمونه کد بالا تصاویر استخراج شده را در فضای ابری ذخیره می کند. با استفاده از نمونه کد زیر می توانید این تصاویر را دانلود کنید:

# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# دانلود تصویر 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# فایل دانلود شده را به دایرکتوری کاری خود منتقل کنید
shutil.move(response, "C:\\Files\\Images")

با استفاده از پایتون، تصاویر را بر اساس شماره صفحه از اسناد PDF ذخیره کنید

با انجام مراحل ذکر شده در زیر به راحتی می توانید تصاویر را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • ImageOptions را تعریف کنید
  • مسیر فایل PDF را ارائه دهید
  • شماره صفحه شروع را تنظیم کنید
  • تعداد صفحات را برای استخراج تنظیم کنید
  • ImagesRequest ایجاد کنید
  • با فراخوانی روش ParseApi.images() به نتیجه برسید

نمونه کد زیر نحوه استخراج تصاویر بر اساس محدوده شماره صفحات از یک سند PDF را با استفاده از REST API نشان می دهد. لطفا برای دانلود تصاویر استخراج شده مراحل ذکر شده را انجام دهید.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# محدوده صفحه را تعریف کنید
options.start_page_number = 1
options.count_pages_to_extract = 1

# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
استخراج تصاویر بر اساس محدوده شماره صفحه از سند PDF.

استخراج تصاویر بر اساس محدوده شماره صفحه از سند PDF.

دریافت تصاویر از سند پیوست شده با PDF با استفاده از پایتون

با دنبال کردن مراحل ذکر شده در زیر، می توانید تصاویر را از یک سند در داخل یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامه ریزی شده استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • ImageOptions را تعریف کنید
  • مسیر فایل PDF را تنظیم کنید
  • ContainerItemInfo را تعریف کنید
  • مسیر نسبی سند داخلی را ارائه دهید
  • شماره صفحه شروع را تنظیم کنید
  • تعداد صفحات را برای استخراج تنظیم کنید
  • ImagesRequest ایجاد کنید
  • با فراخوانی روش ParseApi.images() به نتیجه برسید

نمونه کد زیر نحوه استخراج تصاویر از یک سند در یک سند PDF را با استفاده از REST API نشان می دهد. لطفا برای دانلود تصاویر استخراج شده مراحل ذکر شده را انجام دهید.

# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# مجموعه اقلام ظرف
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# محدوده صفحه را تعریف کنید
options.start_page_number = 2
options.count_pages_to_extract = 1

# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
استخراج تصاویر از سند پیوست شده در سند PDF

استخراج تصاویر از سند پیوست شده در سند PDF.

آنلاین را امتحان کنید

لطفاً ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را که با استفاده از API بالا ایجاد شده است، امتحان کنید. https://products.groupdocs.app/parser/pdf

نتیجه

در این مقاله نحوه استخراج تصاویر از اسناد PDF در فضای ابری را یاد گرفتید. در این مقاله همچنین نحوه آپلود برنامه‌ای یک فایل PDF در فضای ابری توضیح داده شده است. همچنین یاد گرفتید که چگونه تصاویر استخراج شده را با استفاده از SDK دانلود کنید. می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API بیشتر بیاموزید. ما همچنین یک بخش API Reference ارائه می دهیم که به شما امکان می دهد API های ما را مستقیماً از طریق مرورگر تجسم کنید و با آنها تعامل داشته باشید. در صورت وجود هرگونه ابهام، لطفاً با ما در [تالار] تماس حاصل فرمایید15.

همچنین ببینید