استخراج تصاویر از اسناد با استفاده از پایتون

اگر توسعه‌دهنده پایتون هستید و می‌خواهید داده‌ها را از اسناد استخراج کنید، این مقاله شما را راهنمایی می‌کند تا با استفاده از مثال‌های ساده پایتون، تصاویر را از اسناد مختلف پردازش کلمه، صفحات گسترده، ارائه‌ها و اسناد PDF استخراج کنید.

موضوعات زیر امروز پوشش داده خواهد شد:

Image Extraction REST API و Python SDK

تجزیه و تحلیل اسناد Python SDK

این بار، ما از Python SDK GroupDocs.Parser Cloud API برای استخراج تصاویر از انواع مختلف اسناد استفاده خواهیم کرد. با این حال، در حال حاضر، .NET، جاوا، PHP، Ruby و Node.js SDK را به عنوان [اعضای خانواده تجزیه اسناد3 خود برای Cloud API فراهم می کند.

API همچنین از استخراج متن و فراداده همراه با استخراج تصاویر از انواع اسناد مانند اسناد پردازش کلمه، صفحات گسترده، ارائه ها، ایمیل ها، آرشیوها، نشانه گذاری و اسناد PDF پشتیبانی می کند.

برای رسیدن به هدف، ابتدا APP KEY و APP SID خود را از داشبورد قبل از شروع به دنبال کردن مراحل و نمونه‌های کد موجود دریافت کنید.

استخراج تصاویر از PDF با استفاده از پایتون

سند PDF برای استخراج تصاویر، دریافت تصاویر از پی دی اف یا استخراج تصویر از پی دی اف

به عنوان مثال، ابتدا تصاویر را از یک سند PDF استخراج خواهم کرد. تنها با دنبال کردن مراحل ساده، تمام تصاویر را می توان به راحتی استخراج کرد.

  • سند PDF را در Cloud آپلود کنید.
  • تصاویر را از سند آپلود شده استخراج کنید.
  • دانلود تصاویر استخراج شده

سند PDF را بارگذاری کنید

ابتدا سند PDF را با استفاده از یکی از روش های زیر در Cloud آپلود کنید:

  • با استفاده از داشبورد.
  • با استفاده از Upload File API از مرورگر.
  • به صورت برنامه ای همانطور که در [اسناد] ذکر شده است.

در نتیجه، فایل PDF در Cloud Storage آپلود خواهد شد

فایل PDF در داشبورد آپلود شده است

فایل PDF در dashboard.groupdocs.cloud/#/files آپلود شد

استخراج تصاویر از سند PDF آپلود شده

اکنون کار شما با بخش سخت استخراج تمام عکس ها از pdf تمام شده است. دنبال کردن کد پایتون به شما امکان می دهد تا به سرعت تمام تصاویر را از سند PDF آپلود شده استخراج کنید.

# نحوه استخراج تصاویر از اسناد ورد، صفحات گسترده اکسل، ارائه ها یا سند PDF در پایتون.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # APP SID و APP Key را از https://dashboard.groupdocs.cloud/ دریافت کنید
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # نمایش خواص تصاویر استخراج شده
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

تصاویر استخراج شده را دانلود کنید

هنگامی که تصاویر را استخراج کردید، می توانید تصاویر را از فضای ابری یا از داشبورد یا به صورت برنامه ای دانلود کنید. تصاویر نشان داده شده در اینجا از سند PDF نشان داده شده در بالا استخراج شده اند.

تصاویر استخراج شده از یک فایل PDF

تصاویر استخراج شده از سند PDF

استخراج تصاویر از سند با استفاده از پایتون

استخراج تصویر با کیفیت بالا از فایل pdf، xlsx، pptx یا docx

استخراج تصویر از Excel، PPT یا Word Docs با استفاده از پایتون

به همین ترتیب، می‌توانید تمام تصاویر را از اسناد Word، صفحات گسترده، ارائه‌ها با کد پایتون دقیقاً ذکر شده در بالا برای سند PDF استخراج کنید. فقط باید مسیر فایل را با نام سند صحیح با پسوند تغییر دهید.

# استخراج تصاویر از اسناد ورد، صفحات گسترده اکسل، ارائه در پایتون.
options.file_info.file_path = "documents/doc-with-images.docx"
# فقط مسیر سند را بر اساس نیاز تغییر دهید (doc/docx، xls/xlsx، ppt/pptx، ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

استخراج تصاویر از Document Online

چگونه به صورت آنلاین تصاویر را از فایل یا سند استخراج کنیم؟ Groupdocs.Parser یک ابزار آنلاین رایگان برای استخراج تصاویر از word آنلاین، استخراج همه تصاویر از pdf، ذخیره همه تصاویر در یک پاورپوینت یا استخراج تصاویر از xlsx python فراهم می کند. به سادگی سندی را که می خواهید برای استخراج تصاویر jpg، png، jpeg یا gif انتخاب کنید.

استخراج تصاویر از پی دی اف آنلاین رایگان، [ استخراج تصاویر از اکسل آنلاین 10، [ استخراج تصویر از word آنلاین 11 و [ استخراج تصاویر از pptx آنلاین 12 ابزار با استفاده از Groupdocs.Parser Python API.

نتیجه

در این مقاله یاد گرفتیم که چگونه با استفاده از پایتون تصاویر را از Word، Excel، PowerPoint، PDF و سایر اسناد استخراج کنیم. تفاوتی در کد وجود ندارد، فقط باید مسیر و نوع سند منبع را تغییر دهیم.

برای ویژگی‌های بیشتر و کسب اطلاعات بیشتر درباره API تجزیه اسناد، برای مقالاتی که حاوی نمونه‌هایی نیز هستند، از مستندات دیدن کنید. بهترین راه برای آزمایش ویژگی های برجسته شده، تجربه نمونه های در حال اجرا منبع باز از GitHub است. در صورت هر گونه سردرگمی، [تیم پشتیبانی گروه اسناد15 خوشحال می شود که شما را تسهیل کند. با تشکر

یه سوال بپرس

اگر در مورد نحوه استخراج تصاویر از PDF، XLSX، PPTX یا Word DOCX با استفاده از پایتون سؤالی دارید، لطفاً از ما در تالار گفتمان پشتیبانی رایگان بپرسید. )

همچنین ببینید