Как извлечь страницы из файла PDF онлайн в Python

Извлечение страниц из файла PDF онлайн в Python

В некоторых случаях вам может потребоваться извлечь PDF страницы из PDF-документов или разделить большие PDF-документы на более мелкие PDF-файлы. Как разработчик Python, вы можете легко извлекать определенные страницы из файлов PDF онлайн или программно извлекать страницы PDF по диапазону страниц. В этой статье вы узнаете, как извлекать страницы из PDF-файла онлайн на Python с использованием REST API.

В этой статье будут затронуты следующие темы:

REST API для извлечения документов и Python SDK

Чтобы извлечь PDF-страницы из PDF-файлов онлайн, я буду использовать Python SDK облачного API GroupDocs.Merger. Это многофункциональный и высокопроизводительный облачный SDK. Этот Python API позволяет извлекать страницы PDF из одного документа в несколько файлов. SDK предлагает функции для изменения порядка, удаления, замены, поворота или изменения ориентации страницы для всего или предпочтительного диапазона страниц. Он также поддерживает другие манипуляции для любых поддерживаемых форматов файлов, таких как PDF, Word, PowerPoint, рабочие листы Excel и т. д. В настоящее время он поддерживает SDK .NET, Java, PHP, Ruby, Android и Node.js в качестве своего документа [слияние] [][]. 5] членов семьи для Cloud API.

Вы можете установить GroupDocs.Merger-Cloud в свой проект Python, используя следующую команду в консоли:

pip install groupdocs_merger_cloud

Пожалуйста, получите свой идентификатор клиента и секретный код клиента на панели инструментов, прежде чем приступать к выполнению шагов и доступных примеров кода. Получив свой идентификатор и секрет, добавьте код, как показано ниже:

# Импорт пакета SDK для слияния групповых документов
import groupdocs_merger_cloud

# Получите app_sid и app_key с https://dashboard.groupdocs.cloud после бесплатной регистрации.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Получить конфигурации файлового API 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Как извлечь определенные страницы из PDF в Python с помощью REST API

Наш API разделителя PDF позволяет предварительно просмотреть страницы, которые вы хотите разделить. Вы можете выбрать страницы, просто указав количество страниц, которые вы хотите извлечь. Мгновенно разделите PDF-файл на отдельные страницы или извлеките определенные страницы из нового PDF-документа. Извлеките PDF-страницы из PDF-файлов онлайн, выполнив простые шаги, указанные ниже:

  1. Загрузить файл PDF в облако.
  2. Извлечение Страницы PDF по номерам страниц в Python.
  3. Скачать извлеченные файлы.

Загрузить документ

Прежде всего, загрузите многостраничный PDF-документ в облако, используя приведенный ниже фрагмент кода:

# Загрузить PDF-файл в облачное хранилище
# Создайте экземпляр файлового API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Вызов запроса на загрузку файла
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Загрузить PDF-файл в облако
response = file_api.upload_file(request)
print(response.uploaded)

В результате файл PDF будет загружен в облачное хранилище и будет доступен в разделе файлов вашей панели управления. Мы безвозвратно удаляем все ваши файлы из облака через 24 часа после загрузки.

Извлечение определенных страниц по номерам страниц с помощью Python

Чтобы программно извлечь определенную страницу или несколько страниц из PDF-документа, выполните указанные ниже действия.

  • Во-первых, создайте экземпляр PagesApi.
  • Во-вторых, предоставьте экземпляр ExtractOptions
  • Теперь установите путь к входному файлу с помощью экземпляра FileInfo.
  • Затем установите путь к выходному каталогу
  • Затем укажите через запятую номера страниц для извлечения
  • Затем установите режим «Страницы».
  • Затем создайте экземпляр ExtractRequest.
  • Наконец, получите результаты, вызвав класс pagesApi.extract().

В следующем примере кода показано, как извлечь страницы, указав определенные номера страниц из документа PDF с помощью REST API.

# Как извлечь определенные страницы из PDF в Python с помощью REST API
try:
    # Создайте экземпляр API страниц
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Загрузите файл извлеченных страниц PDF

Приведенный выше пример кода сохранит извлеченные страницы в отдельных файлах PDF в облаке. Вы можете загрузить их, используя следующий пример кода:

# Инициализация API для загрузки преобразованного файла
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Создать запрос на скачивание файла
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Скачать конвертированный файл
response = file_api.download_file(request)

# Переместите загруженный файл в свой каталог
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Извлечение страниц из PDF по диапазону страниц в Python с использованием REST API

Выполните указанные ниже шаги, чтобы извлечь страницы из документа PDF, предоставив диапазон страниц программным путем.

  • Во-первых, создайте экземпляр PagesApi.
  • Затем установите ExtractOptions
  • Установите путь к входному файлу с экземпляром FileInfo
  • Затем установите путь к выходному каталогу
  • Укажите диапазон страниц, установив номер начальной страницы и номер конечной страницы для извлечения.
  • Теперь установите интервал режима на Страницы
  • Установите для режима диапазона значение EvenPages или OddPages.
  • Затем создайте экземпляр ExtractRequest.
  • Наконец, получите результаты, вызвав метод pagesApi.extract().

В следующем примере кода показано, как извлечь страницы, предоставив диапазон страниц из документа PDF с помощью REST API. Пожалуйста, следуйте шагам, упомянутым ранее, чтобы загрузить файлы.

# Как извлечь страницы из PDF по диапазону страниц в Python с помощью REST API
try:
    # Создайте экземпляр API документа
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Онлайн-экстрактор страниц PDF бесплатно

Как извлечь страницы из pdf бесплатно? Попробуйте следующий бесплатный онлайн-инструмент для извлечения PDF-файлов, разработанный с использованием вышеуказанного API.

Подведение итогов

Это подводит нас к заключению поста в блоге. Надеюсь, вы узнали:

  • как извлечь определенные страницы из документов PDF в Python;
  • программно загрузить файл PDF, а затем загрузить извлеченные файлы из облака;
  • как извлечь страницы файла PDF, используя диапазон страниц, используя Python;

Вы можете узнать больше о GroupDocs.Merger Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер.

На нашей странице Начало работы вы можете найти более подробную информацию.

Кроме того, Groupdocs.cloud постоянно пополняется новыми темами. В результате оставайтесь в курсе самой последней информации об API.

Задайте вопрос

Вы можете задать свои вопросы об API-интерфейсе программного обеспечения для извлечения страниц PDF через наш бесплатный [форум] поддержки (https://forum.groupdocs.cloud/c/conversion/11).

Часто задаваемые вопросы

Как извлечь страницы из файла PDF в Python?

Перейдите по этой ссылке, чтобы узнать фрагмент кода Python о том, как извлекать страницы из PDF-файлов в Python.

Как извлечь страницы из PDF-документов онлайн с помощью REST API?

Создайте экземпляр PagesApi, установите значения ExtractOptions и вызовите метод pagesApi.extract() с ExtractRequest, чтобы сохранить выбранные страницы файла PDF в Интернете.

Как установить бесплатную библиотеку для извлечения страниц PDF?

Простой способ извлечения страниц из PDF — использование Python SDK. Вы можете установить библиотеку Python для извлечения PDF-файлов, чтобы программно извлекать несколько страниц из PDF-файлов.

Как извлечь страницы PDF в автономном режиме в Windows?

Посетите эту ссылку, чтобы загрузить программное обеспечение для извлечения PDF-файлов для Windows. Это бесплатно загружаемое программное обеспечение для извлечения PDF-файлов быстро разбивает PDF-страницы в Windows одним щелчком мыши.

Смотрите также