Якщо ви розробник Python і бажаєте отримати дані з документів, ця стаття допоможе вам отримати зображення з різних текстових документів, електронних таблиць, презентацій і PDF-документів за допомогою простих прикладів Python.
Сьогодні будуть розглянуті такі теми:
- REST API вилучення зображень і Python SDK
- Витягніть зображення з документа PDF за допомогою Python
- Вилучення зображень із документів Excel, PPT або Word за допомогою Python
REST API вилучення зображень і Python SDK
Цього разу ми використаємо Python SDK GroupDocs.Parser Cloud API для вилучення зображень із різних типів документів. Однак наразі він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства аналізу документів для Cloud API.
API також підтримує вилучення тексту та метаданих, а також вилучення зображень із різних типів документів, таких як документи текстових редакторів, електронні таблиці, презентації, електронні листи, архіви, розмітка та PDF-документи.
Переходячи до мети, спершу отримайте КЛЮЧ ДОДАТКУ та SID ДОДАТКА з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду.
Видобувайте зображення з PDF за допомогою Python
Як приклад, спочатку я витягну зображення з документа PDF. Дотримуючись простих кроків, усі зображення можна легко витягти.
- Завантажте PDF-документ у хмару.
- Витягніть зображення із завантаженого документа.
- Завантажте витягнуті зображення.
Завантажте PDF-документ
По-перше, завантажте PDF-документ у хмару одним із наведених нижче способів.
- Використання інформаційної панелі.
- Використання Upload File API із браузера.
- Програмно, як зазначено в документації.
У результаті PDF-файл буде завантажено в хмарне сховище
Витягніть зображення із завантаженого PDF-документа
Тепер ви закінчили зі складною частиною вилучення всіх фотографій із pdf. Наступний код Python дозволить вам швидко витягнути всі зображення із завантаженого документа PDF.
# Як отримати зображення з документів Word, електронних таблиць Excel, презентацій або PDF-документів на Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Отримайте APP SID і ключ APP на https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Властивості відображення вилучених зображень
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Завантажте витягнуті зображення
Після того, як ви видобули зображення, ви можете завантажити зображення з хмари з інформаційної панелі або програмно. Показані тут зображення взяті з наведеного вище документа PDF.
Вилучення зображень із документів Excel, PPT або Word за допомогою Python
Так само ви можете витягувати всі зображення з документів Word, електронних таблиць, презентацій за допомогою точного вищезгаданого коду python для документа PDF. Вам просто потрібно змінити шлях до файлу на правильну назву документа з розширенням.
# Витягуйте зображення з документів Word, електронних таблиць Excel, презентацій на Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Просто змініть шлях до документа відповідно до вимог (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Видобуток зображень із документа онлайн
Як витягти зображення з файлу або документа онлайн безкоштовно? Groupdocs.Parser надає безкоштовний онлайн-інструмент для видобування зображень із word онлайн, вилучення всіх зображень із pdf, збереження всіх зображень у PowerPoint або вилучення зображень із xlsx python. Просто виберіть документ, який ви бажаєте видобути зображення jpg, png, jpeg або gif.
Інструменти видобувати зображення з pdf онлайн безкоштовно, витягувати зображення з excel онлайн, витягувати зображення з word онлайн і витягувати зображення з ppx онлайн було розроблено за допомогою Groupdocs.Parser Python API.
Висновок
У цій статті ми дізналися, як програмно видобувати зображення з Word, Excel, PowerPoint, PDF та інших документів за допомогою Python. Жодної різниці в коді, нам просто потрібно змінити шлях і тип вихідного документа.
Щоб отримати більше можливостей і дізнатися більше про API аналізу документів, відвідайте документацію для статей, які також містять приклади. Найкращий спосіб перевірити виділені функції — це ознайомитися з прикладами запуску з відкритим кодом із GitHub. У разі будь-якої плутанини група підтримки GroupDocs із задоволенням допоможе вам. Дякую
Задайте питання
Якщо у вас є будь-які запитання щодо того, як отримати зображення з PDF, XLSX, PPTX або Word DOCX за допомогою Python, не соромтеся запитати нас на безкоштовному форумі підтримки. )
Дивись також
- Витягніть усі зображення з PDF і витягніть зображення з PDF онлайн за допомогою Node.js
- Автоматизоване вилучення даних із PDF і вилучення даних із PDF python онлайн
- Витягуйте зображення з PDF python і витягуйте зображення з PDF acrobat за допомогою Python
- Як отримати певні дані з документа Word за допомогою REST API у Node.js
- Видобуток даних із PDF JavaScript і найкраща мова програмування для вилучення даних із PDF
- Видобувайте таблиці з документа Word Python за допомогою REST API в Python