ممکن است لازم باشد تصاویر را از اسناد PDF یا Word خود استخراج کنید تا دوباره از آنها استفاده کنید. به راحتی می توانید تصاویر را از اسناد PDF به صورت برنامه ریزی شده در فضای ابری استخراج کنید. در این مقاله نحوه استخراج تصاویر از اسناد PDF با استفاده از REST API در پایتون توضیح داده می شود.
موضوعات زیر در این مقاله پوشش داده خواهد شد:
- Document Parser REST API و Python SDK
- استخراج تصاویر از PDF با استفاده از REST API
- با استفاده از REST API، تصاویر را بر اساس محدوده شماره صفحات ذخیره کنید
- با استفاده از REST API تصاویر را از سند پیوست دریافت کنید
Document Parser REST API و Python SDK
برای استخراج تصاویر از یک سند PDF، از Python SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این امکان را به شما می دهد تا داده ها را از همه انواع سند محبوب تجزیه کنید. با استفاده از SDK میتوانید متن، تصاویر و دادهها را توسط یک الگو استخراج کنید. همچنین SDK های .NET، جاوا، PHP، Ruby و Node.js را به عنوان [اعضای خانواده تجزیه کننده اسناد3 برای Cloud API ارائه می کند.
میتوانید با استفاده از دستور زیر در کنسول، GroupDocs.Parser Cloud را با پیپ (package installer for python) در پروژه پایتون خود نصب کنید:
pip install groupdocs_parser_cloud
لطفاً قبل از شروع به دنبال کردن مراحل و نمونه کدهای موجود، شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید. هنگامی که شناسه مشتری و Secret خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
استخراج تصاویر از PDF با استفاده از REST API در پایتون
با دنبال کردن مراحل ساده زیر می توانید تصاویر را از اسناد PDF استخراج کنید:
- آپلود فایل PDF را در Cloud
- استخراج تصاویر از اسناد PDF با استفاده از Python
- دانلود the extracted images
سند را آپلود کنید
اول از همه، سند PDF را با استفاده از مثال کد زیر در Cloud آپلود کنید:
# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
در نتیجه، فایل PDF آپلود شده (sample.pdf) در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.
تمام تصاویر را از سند PDF با استفاده از پایتون استخراج کنید
با انجام مراحل ذکر شده در زیر می توانید به راحتی تمامی تصاویر را از فایل PDF به صورت برنامه نویسی استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- ImageOptions را تعریف کنید
- مسیر فایل PDF را تنظیم کنید
- ImagesRequest ایجاد کنید
- با فراخوانی روش ParseApi.images() به نتیجه برسید
نمونه کد زیر نحوه استخراج تمام تصاویر از یک سند PDF را با استفاده از REST API نشان می دهد.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
دانلود تصاویر استخراج شده
نمونه کد بالا تصاویر استخراج شده را در فضای ابری ذخیره می کند. با استفاده از نمونه کد زیر می توانید این تصاویر را دانلود کنید:
# مقداردهی اولیه api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# دانلود تصویر
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# فایل دانلود شده را به دایرکتوری کاری خود منتقل کنید
shutil.move(response, "C:\\Files\\Images")
با استفاده از پایتون، تصاویر را بر اساس شماره صفحه از اسناد PDF ذخیره کنید
با انجام مراحل ذکر شده در زیر به راحتی می توانید تصاویر را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- ImageOptions را تعریف کنید
- مسیر فایل PDF را ارائه دهید
- شماره صفحه شروع را تنظیم کنید
- تعداد صفحات را برای استخراج تنظیم کنید
- ImagesRequest ایجاد کنید
- با فراخوانی روش ParseApi.images() به نتیجه برسید
نمونه کد زیر نحوه استخراج تصاویر بر اساس محدوده شماره صفحات از یک سند PDF را با استفاده از REST API نشان می دهد. لطفا برای دانلود تصاویر استخراج شده مراحل ذکر شده را انجام دهید.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# محدوده صفحه را تعریف کنید
options.start_page_number = 1
options.count_pages_to_extract = 1
# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
دریافت تصاویر از سند پیوست شده با PDF با استفاده از پایتون
با دنبال کردن مراحل ذکر شده در زیر، می توانید تصاویر را از یک سند در داخل یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامه ریزی شده استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید
- ImageOptions را تعریف کنید
- مسیر فایل PDF را تنظیم کنید
- ContainerItemInfo را تعریف کنید
- مسیر نسبی سند داخلی را ارائه دهید
- شماره صفحه شروع را تنظیم کنید
- تعداد صفحات را برای استخراج تنظیم کنید
- ImagesRequest ایجاد کنید
- با فراخوانی روش ParseApi.images() به نتیجه برسید
نمونه کد زیر نحوه استخراج تصاویر از یک سند در یک سند PDF را با استفاده از REST API نشان می دهد. لطفا برای دانلود تصاویر استخراج شده مراحل ذکر شده را انجام دهید.
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های تصویر را تعریف کنید
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# مجموعه اقلام ظرف
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# محدوده صفحه را تعریف کنید
options.start_page_number = 2
options.count_pages_to_extract = 1
# ایجاد درخواست
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
آنلاین را امتحان کنید
لطفاً ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را که با استفاده از API بالا ایجاد شده است، امتحان کنید. https://products.groupdocs.app/parser/pdf
نتیجه
در این مقاله نحوه استخراج تصاویر از اسناد PDF در فضای ابری را یاد گرفتید. در این مقاله همچنین نحوه آپلود برنامهای یک فایل PDF در فضای ابری توضیح داده شده است. همچنین یاد گرفتید که چگونه تصاویر استخراج شده را با استفاده از SDK دانلود کنید. میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API بیشتر بیاموزید. ما همچنین یک بخش API Reference ارائه می دهیم که به شما امکان می دهد API های ما را مستقیماً از طریق مرورگر تجسم کنید و با آنها تعامل داشته باشید. در صورت وجود هرگونه ابهام، لطفاً با ما در [تالار] تماس حاصل فرمایید15.