Видобувайте зображення з PDF-документів за допомогою REST API у Python

Можливо, вам знадобиться витягти зображення з документів PDF або Word, щоб повторно їх використовувати. Ви можете легко видобувати зображення з документів PDF програмним шляхом у хмарі. У цій статті пояснюється, як видобувати зображення з документів PDF за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

API REST аналізатора документів і SDK для Python
Видобувайте зображення з PDF за допомогою REST API
Зберігайте зображення за діапазоном номерів сторінок за допомогою REST API
Отримайте зображення з прикріпленого документа за допомогою REST API

API REST аналізатора документів і SDK для Python

Для отримання зображень із документа PDF я буду використовувати API Python SDK of GroupDocs.Parser Cloud. Він дозволяє аналізувати дані з усіх популярних типів документів. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свій проект Python за допомогою pip (інсталятор пакета для python), використовуючи таку команду в консолі:

pip install groupdocs_parser_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секретний ключ клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор клієнта та секрет, додайте код, як показано нижче:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Видобувайте зображення з PDF за допомогою REST API у Python

Ви можете отримати зображення з PDF-документів, виконавши прості дії, згадані нижче:

Завантажте файл PDF у хмару
Вилучення зображень із PDF-документів за допомогою Python
Завантажити the extracted images

Завантажте документ

Перш за все, завантажте PDF-документ у хмару за допомогою наведеного нижче прикладу коду:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

У результаті завантажений PDF-файл (sample.pdf) буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Витягніть усі зображення з документа PDF за допомогою Python

Ви можете легко вилучити всі зображення з PDF-файлу програмним шляхом, дотримуючись наведених нижче кроків.

Створіть екземпляр ParseApi
Визначте параметри зображення
Встановіть шлях до файлу PDF
Створити ImagesRequest
Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як витягти всі зображення з документа PDF за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Витягніть усі зображення з документа PDF.

Завантажте витягнуті зображення

Наведений вище приклад коду збереже витягнуті зображення в хмарі. Ви можете завантажити ці зображення за допомогою зразка коду, наведеного нижче:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Завантажити зображення 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Перемістіть завантажений файл у свій робочий каталог
shutil.move(response, "C:\\Files\\Images")

Зберігайте зображення за номерами сторінок із PDF-документів за допомогою Python

Ви можете легко витягти зображення з певних сторінок PDF-файлу програмним шляхом, виконавши наведені нижче дії.

Створіть екземпляр ParseApi
Визначте параметри зображення
Вкажіть шлях до файлу PDF
Встановіть номер початкової сторінки
Встановіть кількість сторінок для вилучення
Створити ImagesRequest
Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як видобувати зображення за діапазоном номерів сторінок із документа PDF за допомогою REST API. Будь ласка, виконайте кроки, згадані раніше, щоб завантажити витягнуті зображення.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# визначити діапазон сторінок
options.start_page_number = 1
options.count_pages_to_extract = 1

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Витягніть зображення за діапазоном номерів сторінок із документа PDF.

Отримайте зображення з документа, вкладеного в PDF, за допомогою Python

Ви можете витягти зображення з документа всередині контейнера, доступного як вкладення у PDF-файл програмним шляхом, виконавши наведені нижче дії.

Створіть екземпляр ParseApi
Визначте параметри зображення
Встановіть шлях до файлу PDF
Визначте ContainerItemInfo
Укажіть відносний шлях внутрішнього документа
Встановіть номер початкової сторінки
Встановіть кількість сторінок для вилучення
Створити ImagesRequest
Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як видобувати зображення з документа в PDF-документі за допомогою REST API. Будь ласка, виконайте кроки, згадані раніше, щоб завантажити витягнуті зображення.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# встановити контейнер елемент
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# визначити діапазон сторінок
options.start_page_number = 2
options.count_pages_to_extract = 1

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Витягніть зображення з документа, вкладеного в PDF-документ.

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент аналізу PDF-файлів, розроблений за допомогою вищезазначеного API. https://products.groupdocs.app/parser/pdf

Висновок

У цій статті ви дізналися, як видобувати зображення з документів PDF у хмарі. У цій статті також пояснюється, як програмно завантажити файл PDF у хмару. Ви також дізналися, як завантажувати витягнуті зображення за допомогою SDK. Ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Видобувайте зображення з PDF-документів за допомогою Python

API REST аналізатора документів і SDK для Python

Видобувайте зображення з PDF за допомогою REST API у Python

Завантажте документ

Витягніть усі зображення з документа PDF за допомогою Python

Завантажте витягнуті зображення

Зберігайте зображення за номерами сторінок із PDF-документів за допомогою Python

Отримайте зображення з документа, вкладеного в PDF, за допомогою Python

Спробуйте онлайн

Висновок

Дивись також

API REST аналізатора документів і SDK для Python#

Видобувайте зображення з PDF за допомогою REST API у Python#

Завантажте документ#

Витягніть усі зображення з документа PDF за допомогою Python#

Завантажте витягнуті зображення#

Зберігайте зображення за номерами сторінок із PDF-документів за допомогою Python#

Отримайте зображення з документа, вкладеного в PDF, за допомогою Python#

Спробуйте онлайн#

Висновок#

Дивись також#

API REST аналізатора документів і SDK для Python

Видобувайте зображення з PDF за допомогою REST API у Python

Завантажте документ

Витягніть усі зображення з документа PDF за допомогою Python

Завантажте витягнуті зображення

Зберігайте зображення за номерами сторінок із PDF-документів за допомогою Python

Отримайте зображення з документа, вкладеного в PDF, за допомогою Python

Спробуйте онлайн

Висновок

Дивись також