Видобувайте зображення з документів за допомогою Python

Якщо ви розробник Python і бажаєте отримати дані з документів, ця стаття допоможе вам отримати зображення з різних текстових документів, електронних таблиць, презентацій і PDF-документів за допомогою простих прикладів Python.

Сьогодні будуть розглянуті такі теми:

REST API вилучення зображень і Python SDK

Розбір документів Python SDK

Цього разу ми використаємо Python SDK GroupDocs.Parser Cloud API для вилучення зображень із різних типів документів. Однак наразі він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства аналізу документів для Cloud API.

API також підтримує вилучення тексту та метаданих, а також вилучення зображень із різних типів документів, таких як документи текстових редакторів, електронні таблиці, презентації, електронні листи, архіви, розмітка та PDF-документи.

Переходячи до мети, спершу отримайте КЛЮЧ ДОДАТКУ та SID ДОДАТКА з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду.

Видобувайте зображення з PDF за допомогою Python

PDF-документ для вилучення зображень, отримання зображень із pdf або вилучення зображення з pdf

Як приклад, спочатку я витягну зображення з документа PDF. Дотримуючись простих кроків, усі зображення можна легко витягти.

  • Завантажте PDF-документ у хмару.
  • Витягніть зображення із завантаженого документа.
  • Завантажте витягнуті зображення.

Завантажте PDF-документ

По-перше, завантажте PDF-документ у хмару одним із наведених нижче способів.

У результаті PDF-файл буде завантажено в хмарне сховище

PDF-файл, завантажений на інформаційну панель

Завантажений PDF-файл на dashboard.groupdocs.cloud/#/files

Витягніть зображення із завантаженого PDF-документа

Тепер ви закінчили зі складною частиною вилучення всіх фотографій із pdf. Наступний код Python дозволить вам швидко витягнути всі зображення із завантаженого документа PDF.

# Як отримати зображення з документів Word, електронних таблиць Excel, презентацій або PDF-документів на Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Отримайте APP SID і ключ APP на https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Властивості відображення вилучених зображень
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Завантажте витягнуті зображення

Після того, як ви видобули зображення, ви можете завантажити зображення з хмари з інформаційної панелі або програмно. Показані тут зображення взяті з наведеного вище документа PDF.

Зображення, витягнуті з файлу PDF

Зображення, витягнуті з документа PDF

Витягнуті зображення з документа за допомогою Python

Витягніть високоякісне зображення з файлу pdf, xlsx, pptx або docx

Вилучення зображень із документів Excel, PPT або Word за допомогою Python

Так само ви можете витягувати всі зображення з документів Word, електронних таблиць, презентацій за допомогою точного вищезгаданого коду python для документа PDF. Вам просто потрібно змінити шлях до файлу на правильну назву документа з розширенням.

# Витягуйте зображення з документів Word, електронних таблиць Excel, презентацій на Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Просто змініть шлях до документа відповідно до вимог (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Видобуток зображень із документа онлайн

Як витягти зображення з файлу або документа онлайн безкоштовно? Groupdocs.Parser надає безкоштовний онлайн-інструмент для видобування зображень із word онлайн, вилучення всіх зображень із pdf, збереження всіх зображень у PowerPoint або вилучення зображень із xlsx python. Просто виберіть документ, який ви бажаєте видобути зображення jpg, png, jpeg або gif.

Інструменти видобувати зображення з pdf онлайн безкоштовно, витягувати зображення з excel онлайн, витягувати зображення з word онлайн і витягувати зображення з ppx онлайн було розроблено за допомогою Groupdocs.Parser Python API.

Висновок

У цій статті ми дізналися, як програмно видобувати зображення з Word, Excel, PowerPoint, PDF та інших документів за допомогою Python. Жодної різниці в коді, нам просто потрібно змінити шлях і тип вихідного документа.

Щоб отримати більше можливостей і дізнатися більше про API аналізу документів, відвідайте документацію для статей, які також містять приклади. Найкращий спосіб перевірити виділені функції — це ознайомитися з прикладами запуску з відкритим кодом із GitHub. У разі будь-якої плутанини група підтримки GroupDocs із задоволенням допоможе вам. Дякую

Задайте питання

Якщо у вас є будь-які запитання щодо того, як отримати зображення з PDF, XLSX, PPTX або Word DOCX за допомогою Python, не соромтеся запитати нас на безкоштовному форумі підтримки. )

Дивись також