Витягувати зображення з PDF-документів

Можливо, вам знадобиться витягти зображення з документів PDF або Word, щоб повторно їх використовувати. Ви можете легко видобувати зображення з документів PDF програмним шляхом у хмарі. У цій статті пояснюється, як видобувати зображення з документів PDF за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

API REST аналізатора документів і SDK для Python

Для отримання зображень із документа PDF я буду використовувати API Python SDK of GroupDocs.Parser Cloud. Він дозволяє аналізувати дані з усіх популярних типів документів. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає пакети SDK .NET, Java, PHP, Ruby та Node.js як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свій проект Python за допомогою pip (інсталятор пакета для python), використовуючи таку команду в консолі:

pip install groupdocs_parser_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секретний ключ клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор клієнта та секрет, додайте код, як показано нижче:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Видобувайте зображення з PDF за допомогою REST API у Python

Ви можете отримати зображення з PDF-документів, виконавши прості дії, згадані нижче:

Завантажте документ

Перш за все, завантажте PDF-документ у хмару за допомогою наведеного нижче прикладу коду:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

У результаті завантажений PDF-файл (sample.pdf) буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Витягніть усі зображення з документа PDF за допомогою Python

Ви можете легко вилучити всі зображення з PDF-файлу програмним шляхом, дотримуючись наведених нижче кроків.

  • Створіть екземпляр ParseApi
  • Визначте параметри зображення
  • Встановіть шлях до файлу PDF
  • Створити ImagesRequest
  • Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як витягти всі зображення з документа PDF за допомогою REST API.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Витягніть усі зображення з документа PDF.

Витягніть усі зображення з документа PDF.

Завантажте витягнуті зображення

Наведений вище приклад коду збереже витягнуті зображення в хмарі. Ви можете завантажити ці зображення за допомогою зразка коду, наведеного нижче:

# ініціалізація API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Завантажити зображення 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Перемістіть завантажений файл у свій робочий каталог
shutil.move(response, "C:\\Files\\Images")

Зберігайте зображення за номерами сторінок із PDF-документів за допомогою Python

Ви можете легко витягти зображення з певних сторінок PDF-файлу програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Визначте параметри зображення
  • Вкажіть шлях до файлу PDF
  • Встановіть номер початкової сторінки
  • Встановіть кількість сторінок для вилучення
  • Створити ImagesRequest
  • Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як видобувати зображення за діапазоном номерів сторінок із документа PDF за допомогою REST API. Будь ласка, виконайте кроки, згадані раніше, щоб завантажити витягнуті зображення.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# визначити діапазон сторінок
options.start_page_number = 1
options.count_pages_to_extract = 1

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Витягніть зображення за діапазоном номерів сторінок із документа PDF.

Витягніть зображення за діапазоном номерів сторінок із документа PDF.

Отримайте зображення з документа, вкладеного в PDF, за допомогою Python

Ви можете витягти зображення з документа всередині контейнера, доступного як вкладення у PDF-файл програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Визначте параметри зображення
  • Встановіть шлях до файлу PDF
  • Визначте ContainerItemInfo
  • Укажіть відносний шлях внутрішнього документа
  • Встановіть номер початкової сторінки
  • Встановіть кількість сторінок для вилучення
  • Створити ImagesRequest
  • Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як видобувати зображення з документа в PDF-документі за допомогою REST API. Будь ласка, виконайте кроки, згадані раніше, щоб завантажити витягнуті зображення.

# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# визначити параметри зображення
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# встановити контейнер елемент
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# визначити діапазон сторінок
options.start_page_number = 2
options.count_pages_to_extract = 1

# створити запит
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Витягніть зображення з документа, вкладеного в PDF-документ

Витягніть зображення з документа, вкладеного в PDF-документ.

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент аналізу PDF-файлів, розроблений за допомогою вищезазначеного API. https://products.groupdocs.app/parser/pdf

Висновок

У цій статті ви дізналися, як видобувати зображення з документів PDF у хмарі. У цій статті також пояснюється, як програмно завантажити файл PDF у хмару. Ви також дізналися, як завантажувати витягнуті зображення за допомогою SDK. Ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Дивись також