Если вы являетесь разработчиком Python и хотите извлекать данные из документов, эта статья поможет вам извлечь изображения из различных текстовых документов, электронных таблиц, презентаций и документов PDF, используя простые примеры Python.
Сегодня будут затронуты следующие темы:
- Извлечение изображений REST API и Python SDK
- Извлечение изображений из PDF-документа с помощью Python
- Извлечение изображений из документов Excel, PPT или Word с использованием Python
Извлечение изображений REST API и Python SDK
На этот раз мы будем использовать Python SDK из GroupDocs.Parser Cloud API для извлечения изображений из различных типов документов. Однако в настоящее время он также предоставляет SDK для .NET, Java, PHP, Ruby и Node.js в качестве членов семейства синтаксического анализа документов для Cloud API.
API также поддерживает извлечение текста и метаданных, а также извлечение изображений из различных типов документов, таких как текстовые документы, электронные таблицы, презентации, электронные письма, архивы, разметка и PDF-документы.
Что касается цели, во-первых, получите КЛЮЧ ПРИЛОЖЕНИЯ и SID ПРИЛОЖЕНИЯ с приборной панели, прежде чем приступать к выполнению шагов и доступных примеров кода.
Извлечение изображений из PDF с помощью Python
Например, сначала я буду извлекать изображения из PDF-документа. Просто следуя простым шагам, все изображения могут быть легко извлечены.
- Загрузите документ PDF в облако.
- Извлеките изображения из загруженного документа.
- Загрузите извлеченные изображения.
Загрузите PDF-документ
Во-первых, загрузите PDF-документ в облако одним из следующих способов:
- Используя панель.
- Используя Upload File API из браузера.
- Программно, как указано в документации.
В результате файл PDF будет загружен в облачное хранилище.
Извлечение изображений из загруженного PDF-документа
Теперь вы сделали сложную часть, чтобы извлечь все фотографии из PDF. Следующий код Python позволит вам быстро извлечь все изображения из загруженного PDF-документа.
# Как извлечь изображения из документов Word, электронных таблиц Excel, презентаций или PDF-документов на Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Получите идентификатор безопасности приложения и ключ приложения с https://dashboard.groupdocs.cloud/.
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Показать свойства извлеченных изображений
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Загрузите извлеченные изображения
После того, как вы извлекли изображения, вы можете загрузить их из облака либо с панели инструментов, либо программно. Изображения, показанные здесь, извлечены из приведенного выше PDF-документа.
Извлечение изображений из документов Excel, PPT или Word с использованием Python
Точно так же вы можете извлечь все изображения из документов Word, электронных таблиц, презентаций с помощью точного вышеупомянутого кода Python для документа PDF. Вам просто нужно изменить путь к файлу с правильным именем документа с расширением.
# Извлекайте изображения из документов Word, электронных таблиц Excel, презентаций на Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Просто измените путь к документу в соответствии с требованиями (doc/docx, xls/xlsx, ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Извлечение изображений из документа онлайн
Как извлечь изображения из файла или документа онлайн бесплатно? Groupdocs.Parser предоставляет бесплатный онлайн-инструмент для извлечения изображений из слова онлайн, извлечения всех изображений из pdf, сохранения всех изображений в PowerPoint или извлечения изображений из xlsx python. Просто выберите документ, который вы хотите извлечь в формате jpg, png, jpeg или gif.
Инструменты Извлечение изображений из pdf в Интернете бесплатно, Извлечение изображений из Excel в Интернете, Извлечение изображений из Word в Интернете и Извлечение изображений из pptx в Интернете были разработаны с использованием Groupdocs.Parser Python API.
Заключение
В этой статье мы узнали, как программно извлекать изображения из документов Word, Excel, PowerPoint, PDF и других документов с помощью Python. Никакой разницы в коде, нам просто нужно изменить путь и тип исходного документа.
Чтобы узнать больше о дополнительных функциях и API анализа документов, посетите документацию для получения статей, которые также содержат примеры. Лучший способ протестировать выделенные функции — испытать запущенные примеры с открытым исходным кодом на GitHub. В случае возникновения каких-либо затруднений, Группа поддержки GroupDocs будет рада помочь вам. Спасибо
Задайте вопрос
Если у вас есть какие-либо вопросы относительно того, как извлечь изображения из PDF, XLSX, PPTX или Word DOCX с помощью Python, задайте их нам на Форуме бесплатной поддержки. )
Смотрите также
- Извлеките все изображения из PDF и извлеките изображения из PDF онлайн с помощью Node.js
- Автоматическое извлечение данных из PDF и извлечение данных из PDF python онлайн
- Извлечение изображений из PDF Python и извлечение изображений из PDF acrobat с помощью Python
- Как извлечь определенные данные из документа Word с помощью REST API в Node.js
- Извлечение данных из PDF javascript и лучший язык программирования для извлечения данных из PDF
- Извлечение таблиц из документа Word на Python с использованием REST API в Python