اگر توسعهدهنده پایتون هستید و میخواهید دادهها را از اسناد استخراج کنید، این مقاله شما را راهنمایی میکند تا با استفاده از مثالهای ساده پایتون، تصاویر را از اسناد مختلف پردازش کلمه، صفحات گسترده، ارائهها و اسناد PDF استخراج کنید.
موضوعات زیر امروز پوشش داده خواهد شد:
- Image Extraction REST API و Python SDK
- استخراج تصاویر از سند PDF با استفاده از پایتون
- استخراج تصاویر از Excel، PPT یا Word Docs با استفاده از پایتون
Image Extraction REST API و Python SDK
این بار، ما از Python SDK GroupDocs.Parser Cloud API برای استخراج تصاویر از انواع مختلف اسناد استفاده خواهیم کرد. با این حال، در حال حاضر، .NET، جاوا، PHP، Ruby و Node.js SDK را به عنوان [اعضای خانواده تجزیه اسناد3 خود برای Cloud API فراهم می کند.
API همچنین از استخراج متن و فراداده همراه با استخراج تصاویر از انواع اسناد مانند اسناد پردازش کلمه، صفحات گسترده، ارائه ها، ایمیل ها، آرشیوها، نشانه گذاری و اسناد PDF پشتیبانی می کند.
برای رسیدن به هدف، ابتدا APP KEY و APP SID خود را از داشبورد قبل از شروع به دنبال کردن مراحل و نمونههای کد موجود دریافت کنید.
استخراج تصاویر از PDF با استفاده از پایتون
به عنوان مثال، ابتدا تصاویر را از یک سند PDF استخراج خواهم کرد. تنها با دنبال کردن مراحل ساده، تمام تصاویر را می توان به راحتی استخراج کرد.
- سند PDF را در Cloud آپلود کنید.
- تصاویر را از سند آپلود شده استخراج کنید.
- دانلود تصاویر استخراج شده
سند PDF را بارگذاری کنید
ابتدا سند PDF را با استفاده از یکی از روش های زیر در Cloud آپلود کنید:
- با استفاده از داشبورد.
- با استفاده از Upload File API از مرورگر.
- به صورت برنامه ای همانطور که در [اسناد] ذکر شده است.
در نتیجه، فایل PDF در Cloud Storage آپلود خواهد شد
استخراج تصاویر از سند PDF آپلود شده
اکنون کار شما با بخش سخت استخراج تمام عکس ها از pdf تمام شده است. دنبال کردن کد پایتون به شما امکان می دهد تا به سرعت تمام تصاویر را از سند PDF آپلود شده استخراج کنید.
# نحوه استخراج تصاویر از اسناد ورد، صفحات گسترده اکسل، ارائه ها یا سند PDF در پایتون.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# APP SID و APP Key را از https://dashboard.groupdocs.cloud/ دریافت کنید
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# نمایش خواص تصاویر استخراج شده
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
تصاویر استخراج شده را دانلود کنید
هنگامی که تصاویر را استخراج کردید، می توانید تصاویر را از فضای ابری یا از داشبورد یا به صورت برنامه ای دانلود کنید. تصاویر نشان داده شده در اینجا از سند PDF نشان داده شده در بالا استخراج شده اند.
استخراج تصویر از Excel، PPT یا Word Docs با استفاده از پایتون
به همین ترتیب، میتوانید تمام تصاویر را از اسناد Word، صفحات گسترده، ارائهها با کد پایتون دقیقاً ذکر شده در بالا برای سند PDF استخراج کنید. فقط باید مسیر فایل را با نام سند صحیح با پسوند تغییر دهید.
# استخراج تصاویر از اسناد ورد، صفحات گسترده اکسل، ارائه در پایتون.
options.file_info.file_path = "documents/doc-with-images.docx"
# فقط مسیر سند را بر اساس نیاز تغییر دهید (doc/docx، xls/xlsx، ppt/pptx، ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
استخراج تصاویر از Document Online
چگونه به صورت آنلاین تصاویر را از فایل یا سند استخراج کنیم؟ Groupdocs.Parser یک ابزار آنلاین رایگان برای استخراج تصاویر از word آنلاین، استخراج همه تصاویر از pdf، ذخیره همه تصاویر در یک پاورپوینت یا استخراج تصاویر از xlsx python فراهم می کند. به سادگی سندی را که می خواهید برای استخراج تصاویر jpg، png، jpeg یا gif انتخاب کنید.
استخراج تصاویر از پی دی اف آنلاین رایگان، [ استخراج تصاویر از اکسل آنلاین 10، [ استخراج تصویر از word آنلاین 11 و [ استخراج تصاویر از pptx آنلاین 12 ابزار با استفاده از Groupdocs.Parser Python API.
نتیجه
در این مقاله یاد گرفتیم که چگونه با استفاده از پایتون تصاویر را از Word، Excel، PowerPoint، PDF و سایر اسناد استخراج کنیم. تفاوتی در کد وجود ندارد، فقط باید مسیر و نوع سند منبع را تغییر دهیم.
برای ویژگیهای بیشتر و کسب اطلاعات بیشتر درباره API تجزیه اسناد، برای مقالاتی که حاوی نمونههایی نیز هستند، از مستندات دیدن کنید. بهترین راه برای آزمایش ویژگی های برجسته شده، تجربه نمونه های در حال اجرا منبع باز از GitHub است. در صورت هر گونه سردرگمی، [تیم پشتیبانی گروه اسناد15 خوشحال می شود که شما را تسهیل کند. با تشکر
یه سوال بپرس
اگر در مورد نحوه استخراج تصاویر از PDF، XLSX، PPTX یا Word DOCX با استفاده از پایتون سؤالی دارید، لطفاً از ما در تالار گفتمان پشتیبانی رایگان بپرسید. )
همچنین ببینید
- تمام تصاویر را از PDF استخراج کنید و با استفاده از Node.js تصاویر را از PDF استخراج کنید
- استخراج خودکار داده ها از PDF و استخراج داده ها از PDF python به صورت آنلاین
- استخراج تصاویر از PDF python و استخراج تصاویر از PDF acrobat با استفاده از Python
- نحوه استخراج داده های خاص از سند word با استفاده از REST API در Node.js
- استخراج داده ها از PDF جاوا اسکریپت و بهترین زبان برنامه نویسی برای استخراج داده ها از PDF
- با استفاده از REST API در پایتون جداول را از سند word python استخراج کنید