Як витягти сторінки з PDF-файлу онлайн на Python

Витягніть сторінки з файлу PDF онлайн на Python

У деяких випадках вам може знадобитися видобути сторінки PDF із PDF-документів або розділити великі PDF-документи на менші PDF-файли. Як розробник Python ви можете легко видобувати певні сторінки з PDF-файлів онлайн або видобувати PDF-сторінки за діапазоном сторінок програмним шляхом. У цій статті ви дізнаєтеся, як видобувати сторінки з PDF-файлу онлайн на Python за допомогою REST API.

У цій статті будуть розглянуті такі теми:

REST API для вилучення документів і SDK для Python

Щоб видобувати PDF-сторінки з PDF-файлів онлайн, я буду використовувати Python SDK GroupDocs.Merger Cloud API. Це багатофункціональний і високопродуктивний Cloud SDK. Цей API Python дозволяє видобувати PDF-сторінки з одного документа в кілька файлів. SDK пропонує функціональні можливості для перевпорядкування, видалення, обміну, повороту або зміни орієнтації сторінки для цілого або бажаного діапазону сторінок. Він також підтримує інші маніпуляції для будь-яких підтримуваних форматів файлів, як-от для PDF, Word, PowerPoint, робочих аркушів Excel тощо. Наразі він підтримує .NET, Java, PHP, Ruby, Android і Node.js SDK як свій документ merger члени родини для Cloud API.

Ви можете встановити GroupDocs.Merger-Cloud у свій проект Python за допомогою такої команди в консолі:

pip install groupdocs_merger_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секрет клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:

# Імпорт SDK для злиття groupdocs
import groupdocs_merger_cloud

# Отримайте app_sid і app_key з https://dashboard.groupdocs.cloud після безкоштовної реєстрації.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Отримайте конфігурації File API 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Як витягти певні сторінки з PDF у Python за допомогою REST API

Наш API розділювача PDF дозволяє попередньо переглядати сторінки, які ви хочете розділити. Ви можете вибрати сторінки, просто вказавши кількість сторінок, які ви хочете витягти. Миттєво розділіть PDF-файл на окремі сторінки або витягніть окремі сторінки з нового PDF-документа. Витягніть PDF-сторінки з PDF-файлів онлайн, дотримуючись простих кроків, наведених нижче:

  1. Завантажте файл PDF у хмару.
  2. Витяг Сторінки PDF за номерами сторінок у Python.
  3. Завантажити витягнуті файли.

Завантажте документ

Перш за все, завантажте багатосторінковий PDF-документ у хмару за допомогою наведеного нижче фрагмента коду:

# Завантажте файл PDF у хмарне сховище
# Створіть екземпляр файлу API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Виклик запиту на завантаження файлу
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Завантажте файл PDF у хмару
response = file_api.upload_file(request)
print(response.uploaded)

У результаті PDF-файл буде завантажено в хмарне сховище та доступний у розділі файлів вашої інформаційної панелі. Ми назавжди видаляємо всі ваші файли з хмари через 24 години після завантаження.

Витягніть певні сторінки за номерами сторінок за допомогою Python

Щоб вилучити певну сторінку або кілька сторінок із PDF-документа програмним шляхом, виконайте наведені нижче дії.

  • По-перше, створіть екземпляр PagesApi.
  • По-друге, надайте екземпляр ExtractOptions
  • Тепер установіть шлях до вхідного файлу за допомогою екземпляра FileInfo
  • Далі встановіть шлях до вихідного каталогу
  • Потім укажіть номери сторінок, розділених комами, для вилучення
  • Далі встановіть режим Сторінки
  • Далі створіть екземпляр ExtractRequest
  • Нарешті, отримуйте результати, викликавши клас pagesApi.extract().

У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи конкретні номери сторінок із документа PDF за допомогою REST API:

# Як витягти певні сторінки з PDF на Python за допомогою REST API
try:
    # Створіть екземпляр Pages API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Завантажте файл витягнутих PDF-сторінок

Наведений вище зразок коду збереже витягнуті сторінки в окремих PDF-файлах у хмарі. Ви можете завантажити їх за допомогою наступного зразка коду:

# Ініціалізація API для завантаження конвертованого файлу
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Створити запит на завантаження файлу
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Завантажити конвертований файл
response = file_api.download_file(request)

# Перемістіть завантажений файл у свій каталог
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Витягуйте сторінки з PDF за діапазоном сторінок у Python за допомогою REST API

Виконайте наведені нижче кроки, щоб отримати сторінки з PDF-документа, надавши діапазон сторінок програмним шляхом.

  • По-перше, створіть екземпляр PagesApi.
  • Далі встановіть ExtractOptions
  • Встановіть шлях до вхідного файлу за допомогою екземпляра FileInfo
  • Далі встановіть шлях до вихідного каталогу
  • Укажіть діапазон сторінок, установивши номер початкової та кінцевої сторінок для вилучення
  • Тепер встановіть інтервал режиму на Сторінки
  • Установіть режим діапазону на EvenPages або OddPages
  • Далі створіть екземпляр ExtractRequest
  • Нарешті, отримуйте результати, викликавши метод pagesApi.extract().

У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи діапазон сторінок із документа PDF за допомогою REST API. Щоб завантажити файли, виконайте наведені вище дії.

# Як видобувати сторінки з PDF за діапазоном сторінок у Python за допомогою REST API
try:
    # Створіть екземпляр Document API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Онлайн-екстрактор PDF-сторінок безкоштовно

Як витягти сторінки з pdf безкоштовно? Будь ласка, спробуйте наступний безкоштовний онлайн-інструмент для видобування PDF-файлів, який розроблено за допомогою наведеного вище API.

Підводячи підсумки

Це підводить нас до завершення публікації в блозі. Сподіваюся, ви навчилися:

  • як витягти певні сторінки з документів PDF у Python;
  • програмно завантажити файл PDF, а потім завантажити витягнуті файли з хмари;
  • як видобувати сторінки файлу PDF за допомогою діапазону сторінок за допомогою Python;

Ви можете дізнатися більше про GroupDocs.Merger Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер.

На нашій сторінці Початок роботи ви можете дізнатися більше.

Крім того, Groupdocs.cloud постійно оновлюється новими темами. Як результат, залишайтеся в курсі найновішої інформації про API.

Задайте питання

Ви можете поставити свої запитання щодо програмного інтерфейсу програмного забезпечення для вилучення сторінок PDF через наш [форум] безкоштовної підтримки (https://forum.groupdocs.cloud/c/conversion/11)

поширені запитання

Як витягти сторінки з PDF-файлу в Python?

Перейдіть це посилання, щоб дізнатися фрагмент коду Python про те, як видобувати сторінки з PDF-файлів у Python.

Як витягти сторінки з PDF-документів онлайн за допомогою REST API?

Створіть екземпляр PagesApi, установіть значення параметрів ExtractOptions і викличте метод pagesApi.extract() із ExtractRequest, щоб зберегти вибрані сторінки файлу PDF онлайн.

Як встановити безкоштовну бібліотеку для завантаження PDF-сторінок?

Простий спосіб видобувати сторінки з PDF – використовувати Python SDK. Ви можете встановити бібліотеку Python екстрактора PDF, щоб програмно видобувати кілька сторінок із файлів PDF.

Як розпакувати PDF-сторінки в режимі офлайн у Windows?

Будь ласка, перейдіть це посилання, щоб завантажити програмне забезпечення для видобування PDF для Windows. Ця програма для безкоштовного завантаження PDF-екстрактора швидко розділить сторінки PDF у Windows одним клацанням миші.

Дивись також