Витягніть певні сторінки з PDF за допомогою Python

Можливо, вам знадобиться витягнути певні сторінки з PDF-документів або розділити великі PDF-документи на менші частини. Як розробник Python ви можете легко видобувати певні сторінки з документів PDF за номерами сторінок або за діапазоном сторінок програмним шляхом. У цій статті ви дізнаєтесь, як видобувати певні сторінки з документів PDF за допомогою REST API у Python.

У цій статті будуть розглянуті такі теми:

Document Splitter REST API та Python SDK
Витягніть певні сторінки з PDF за допомогою REST API
Видобувайте сторінки за діапазоном сторінок за допомогою Python

Document Splitter REST API та Python SDK

Для видобування сторінок із документів PDF я буду використовувати API Python SDK of GroupDocs.Merger Cloud. Це багатофункціональний і високопродуктивний Cloud SDK, який використовується для об’єднання кількох документів в один документ. Це також дозволяє розділити один документ на кілька документів. SDK пропонує функції для видалення, обміну, обертання або зміни орієнтації сторінки для цілого чи бажаного діапазону сторінок і виконання інших маніпуляцій з будь-якими підтримуваними форматами файлів, такими як робочі аркуші PDF, Word, Powerpoint і Excel. Наразі він також надає пакети SDK .NET, Java, PHP, Ruby, Android і Node.js як члени родини об’єднання документів для Cloud API.

Ви можете встановити GroupDocs.Merger-Cloud у свій проект Python за допомогою такої команди в консолі:

pip install groupdocs_merger_cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секрет клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Витягніть певні сторінки з PDF за допомогою REST API у Python

Ви можете витягнути певні сторінки з PDF-документів, виконавши прості кроки, згадані нижче:

Завантажте файл PDF у хмару
Витягніть конкретні сторінки за номерами сторінок із завантаженого файлу PDF
Завантажити витягнуті файли

Завантажте документ

Перш за все, завантажте багатосторінковий PDF-документ у хмару, використовуючи наведений нижче приклад коду:

# створити екземпляр API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# завантажити зразки файлів
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

У результаті PDF-файл буде завантажено в хмарне сховище та доступний у розділі файлів вашої інформаційної панелі.

Витягніть певні сторінки за номерами сторінок за допомогою Python

Будь ласка, виконайте наведені нижче кроки, щоб отримати певну сторінку або декілька сторінок із документа PDF програмним шляхом.

Створіть екземпляр API документів.
Надайте SplitOptions
Встановіть шлях до вхідного файлу
Встановіть шлях до вихідного каталогу
Укажіть номери сторінок, розділених комами, для вилучення
Установіть режим Сторінки
Створіть SplitRequest
Отримайте результати, викликавши метод DocumentApi.split().

У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи конкретні номери сторінок із документа PDF за допомогою REST API.

# ініціалізація API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# визначити параметри розділення
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# створити розділений запит
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))

Витягніть певні сторінки з PDF за допомогою Python

Завантажте витягнуті файли сторінок

Наведений вище зразок коду збереже витягнуті сторінки в окремих PDF-файлах у хмарі. Ви можете завантажити їх за допомогою наступного зразка коду:

# ініціалізація API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# запит на завантаження файлу
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# перемістити завантажений файл у ваш робочий каталог
shutil.move(response, "C:\\Files\\")

Видобувайте сторінки за діапазоном сторінок за допомогою Python

Виконайте наведені нижче кроки, щоб отримати сторінки з PDF-документа, надавши діапазон сторінок програмним шляхом.

Створіть екземпляр API документів.
Надайте SplitOptions
Встановіть шлях до вхідного файлу
Встановіть шлях до вихідного каталогу
Укажіть діапазон сторінок, установивши номер початкової та кінцевої сторінок для вилучення
Установіть режим Сторінки
Створіть SplitRequest
Отримайте результати, викликавши метод DocumentApi.split().
Створити DownloadFileRequest
Завантажте файл, викликавши метод FileApi.download\file().

У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи діапазон сторінок із документа PDF за допомогою REST API. Щоб завантажити файли, виконайте наведені вище дії.

# ініціалізація API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# визначити параметри розділення
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# створити розділений запит
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# показувати результати та завантажувати файли один за одним
for data in result.documents:
    print("Document Url = " + str(data))
    
    # створити запит на завантаження файлу
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Перемістіть завантажений файл у свій робочий каталог
    shutil.move(response, "C:\\Files\\")

Видобувайте сторінки за діапазоном сторінок за допомогою Python

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент для розділення PDF-файлів, який розроблено за допомогою наведеного вище API. https://products.groupdocs.app/splitter/pdf

Висновок

У цій статті ви дізналися, як видобувати певні сторінки з PDF-документів у хмарі за допомогою Python. Ви також дізналися, як програмно завантажити PDF-файл у хмару, а потім завантажити витягнуті файли з хмари. Ви можете дізнатися більше про GroupDocs.Merger Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Дивись також

Об’єднайте PDF-файли за допомогою REST API

Document Splitter REST API та Python SDK#

Витягніть певні сторінки з PDF за допомогою REST API у Python#

Завантажте документ#

Витягніть певні сторінки за номерами сторінок за допомогою Python#

Завантажте витягнуті файли сторінок#

Видобувайте сторінки за діапазоном сторінок за допомогою Python#

Спробуйте онлайн#

Висновок#

Дивись також#