Извлечение изображений из документов с помощью Python

Если вы являетесь разработчиком Python и хотите извлекать данные из документов, эта статья поможет вам извлечь изображения из различных текстовых документов, электронных таблиц, презентаций и документов PDF, используя простые примеры Python.

Сегодня будут затронуты следующие темы:

Извлечение изображений REST API и Python SDK

Синтаксический анализ документов Python SDK

На этот раз мы будем использовать Python SDK из GroupDocs.Parser Cloud API для извлечения изображений из различных типов документов. Однако в настоящее время он также предоставляет SDK для .NET, Java, PHP, Ruby и Node.js в качестве членов семейства синтаксического анализа документов для Cloud API.

API также поддерживает извлечение текста и метаданных, а также извлечение изображений из различных типов документов, таких как текстовые документы, электронные таблицы, презентации, электронные письма, архивы, разметка и PDF-документы.

Что касается цели, во-первых, получите КЛЮЧ ПРИЛОЖЕНИЯ и SID ПРИЛОЖЕНИЯ с приборной панели, прежде чем приступать к выполнению шагов и доступных примеров кода.

Извлечение изображений из PDF с помощью Python

PDF-документ для извлечения изображений, получения изображений из pdf или извлечения изображения из pdf

Например, сначала я буду извлекать изображения из PDF-документа. Просто следуя простым шагам, все изображения могут быть легко извлечены.

  • Загрузите документ PDF в облако.
  • Извлеките изображения из загруженного документа.
  • Загрузите извлеченные изображения.

Загрузите PDF-документ

Во-первых, загрузите PDF-документ в облако одним из следующих способов:

В результате файл PDF будет загружен в облачное хранилище.

PDF-файл загружен на панель инструментов

Загружен PDF-файл по адресу dashboard.groupdocs.cloud/#/files.

Извлечение изображений из загруженного PDF-документа

Теперь вы сделали сложную часть, чтобы извлечь все фотографии из PDF. Следующий код Python позволит вам быстро извлечь все изображения из загруженного PDF-документа.

# Как извлечь изображения из документов Word, электронных таблиц Excel, презентаций или PDF-документов на Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Получите идентификатор безопасности приложения и ключ приложения с https://dashboard.groupdocs.cloud/.
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Показать свойства извлеченных изображений
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Загрузите извлеченные изображения

После того, как вы извлекли изображения, вы можете загрузить их из облака либо с панели инструментов, либо программно. Изображения, показанные здесь, извлечены из приведенного выше PDF-документа.

Изображения, извлеченные из файла PDF

Изображения, извлеченные из документа PDF

Извлеченные изображения из документа с использованием Python

Извлечение высококачественного изображения из файла pdf, xlsx, pptx или docx

Извлечение изображений из документов Excel, PPT или Word с использованием Python

Точно так же вы можете извлечь все изображения из документов Word, электронных таблиц, презентаций с помощью точного вышеупомянутого кода Python для документа PDF. Вам просто нужно изменить путь к файлу с правильным именем документа с расширением.

# Извлекайте изображения из документов Word, электронных таблиц Excel, презентаций на Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Просто измените путь к документу в соответствии с требованиями (doc/docx, xls/xlsx, ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Извлечение изображений из документа онлайн

Как извлечь изображения из файла или документа онлайн бесплатно? Groupdocs.Parser предоставляет бесплатный онлайн-инструмент для извлечения изображений из слова онлайн, извлечения всех изображений из pdf, сохранения всех изображений в PowerPoint или извлечения изображений из xlsx python. Просто выберите документ, который вы хотите извлечь в формате jpg, png, jpeg или gif.

Инструменты Извлечение изображений из pdf в Интернете бесплатно, Извлечение изображений из Excel в Интернете, Извлечение изображений из Word в Интернете и Извлечение изображений из pptx в Интернете были разработаны с использованием Groupdocs.Parser Python API.

Заключение

В этой статье мы узнали, как программно извлекать изображения из документов Word, Excel, PowerPoint, PDF и других документов с помощью Python. Никакой разницы в коде, нам просто нужно изменить путь и тип исходного документа.

Чтобы узнать больше о дополнительных функциях и API анализа документов, посетите документацию для получения статей, которые также содержат примеры. Лучший способ протестировать выделенные функции — испытать запущенные примеры с открытым исходным кодом на GitHub. В случае возникновения каких-либо затруднений, Группа поддержки GroupDocs будет рада помочь вам. Спасибо

Задайте вопрос

Если у вас есть какие-либо вопросы относительно того, как извлечь изображения из PDF, XLSX, PPTX или Word DOCX с помощью Python, задайте их нам на Форуме бесплатной поддержки. )

Смотрите также