Можливо, вам знадобиться витягнути певні сторінки з PDF-документів або розділити великі PDF-документи на менші частини. Як розробник Python ви можете легко видобувати певні сторінки з документів PDF за номерами сторінок або за діапазоном сторінок програмним шляхом. У цій статті ви дізнаєтесь, як видобувати певні сторінки з документів PDF за допомогою REST API у Python.
У цій статті будуть розглянуті такі теми:
- Document Splitter REST API та Python SDK
- Витягніть певні сторінки з PDF за допомогою REST API
- Видобувайте сторінки за діапазоном сторінок за допомогою Python
Document Splitter REST API та Python SDK
Для видобування сторінок із документів PDF я буду використовувати API Python SDK of GroupDocs.Merger Cloud. Це багатофункціональний і високопродуктивний Cloud SDK, який використовується для об’єднання кількох документів в один документ. Це також дозволяє розділити один документ на кілька документів. SDK пропонує функції для видалення, обміну, обертання або зміни орієнтації сторінки для цілого чи бажаного діапазону сторінок і виконання інших маніпуляцій з будь-якими підтримуваними форматами файлів, такими як робочі аркуші PDF, Word, Powerpoint і Excel. Наразі він також надає пакети SDK .NET, Java, PHP, Ruby, Android і Node.js як члени родини об’єднання документів для Cloud API.
Ви можете встановити GroupDocs.Merger-Cloud у свій проект Python за допомогою такої команди в консолі:
pip install groupdocs_merger_cloud
Будь ласка, отримайте свій ідентифікатор клієнта та секрет клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Витягніть певні сторінки з PDF за допомогою REST API у Python
Ви можете витягнути певні сторінки з PDF-документів, виконавши прості кроки, згадані нижче:
- Завантажте файл PDF у хмару
- Витягніть конкретні сторінки за номерами сторінок із завантаженого файлу PDF
- Завантажити витягнуті файли
Завантажте документ
Перш за все, завантажте багатосторінковий PDF-документ у хмару, використовуючи наведений нижче приклад коду:
# створити екземпляр API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# завантажити зразки файлів
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)
У результаті PDF-файл буде завантажено в хмарне сховище та доступний у розділі файлів вашої інформаційної панелі.
Витягніть певні сторінки за номерами сторінок за допомогою Python
Будь ласка, виконайте наведені нижче кроки, щоб отримати певну сторінку або декілька сторінок із документа PDF програмним шляхом.
- Створіть екземпляр API документів.
- Надайте SplitOptions
- Встановіть шлях до вхідного файлу
- Встановіть шлях до вихідного каталогу
- Укажіть номери сторінок, розділених комами, для вилучення
- Установіть режим Сторінки
- Створіть SplitRequest
- Отримайте результати, викликавши метод DocumentApi.split().
У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи конкретні номери сторінок із документа PDF за допомогою REST API.
# ініціалізація API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
# визначити параметри розділення
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"
# створити розділений запит
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
Завантажте витягнуті файли сторінок
Наведений вище зразок коду збереже витягнуті сторінки в окремих PDF-файлах у хмарі. Ви можете завантажити їх за допомогою наступного зразка коду:
# ініціалізація API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# запит на завантаження файлу
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)
# перемістити завантажений файл у ваш робочий каталог
shutil.move(response, "C:\\Files\\")
Видобувайте сторінки за діапазоном сторінок за допомогою Python
Виконайте наведені нижче кроки, щоб отримати сторінки з PDF-документа, надавши діапазон сторінок програмним шляхом.
- Створіть екземпляр API документів.
- Надайте SplitOptions
- Встановіть шлях до вхідного файлу
- Встановіть шлях до вихідного каталогу
- Укажіть діапазон сторінок, установивши номер початкової та кінцевої сторінок для вилучення
- Установіть режим Сторінки
- Створіть SplitRequest
- Отримайте результати, викликавши метод DocumentApi.split().
- Створити DownloadFileRequest
- Завантажте файл, викликавши метод FileApi.download\file().
У наведеному нижче прикладі коду показано, як видобувати сторінки, надаючи діапазон сторінок із документа PDF за допомогою REST API. Щоб завантажити файли, виконайте наведені вище дії.
# ініціалізація API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# визначити параметри розділення
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"
# створити розділений запит
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
# показувати результати та завантажувати файли один за одним
for data in result.documents:
print("Document Url = " + str(data))
# створити запит на завантаження файлу
request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
response = file_api.download_file(request)
# Перемістіть завантажений файл у свій робочий каталог
shutil.move(response, "C:\\Files\\")
Спробуйте онлайн
Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент для розділення PDF-файлів, який розроблено за допомогою наведеного вище API. https://products.groupdocs.app/splitter/pdf
Висновок
У цій статті ви дізналися, як видобувати певні сторінки з PDF-документів у хмарі за допомогою Python. Ви також дізналися, як програмно завантажити PDF-файл у хмару, а потім завантажити витягнуті файли з хмари. Ви можете дізнатися більше про GroupDocs.Merger Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.