Anda mungkin perlu mengekstrak halaman tertentu dari dokumen PDF atau mungkin perlu membagi dokumen PDF besar menjadi bagian yang lebih kecil. Sebagai pengembang Python, Anda dapat dengan mudah mengekstrak halaman tertentu dari dokumen PDF berdasarkan nomor halaman atau rentang halaman secara terprogram. Pada artikel ini, Anda akan mempelajari cara mengekstrak halaman tertentu dari dokumen PDF menggunakan REST API dengan Python.
Topik-topik berikut akan dibahas dalam artikel ini:
- Document Splitter REST API dan Python SDK
- Ekstrak Halaman Tertentu dari PDF menggunakan REST API
- Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python
Document Splitter REST API dan Python SDK
Untuk mengekstrak halaman dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Merger Cloud API. Ini adalah Cloud SDK kaya fitur dan berkinerja tinggi yang digunakan untuk menggabungkan beberapa dokumen menjadi satu dokumen. Ini juga memungkinkan Anda untuk membagi satu dokumen menjadi beberapa dokumen. SDK menawarkan fungsionalitas untuk menghapus, menukar, memutar, atau mengubah orientasi halaman untuk keseluruhan atau rentang halaman yang disukai dan melakukan manipulasi lain dengan mudah untuk semua format file yang didukung seperti lembar kerja PDF, Word, Powerpoint, dan Excel. Saat ini, ia juga menyediakan SDK .NET, Java, PHP, Ruby, Android, dan Node.js sebagai anggota keluarga penggabungan dokumen untuk Cloud API.
Anda dapat menginstal GroupDocs.Merger-Cloud ke proyek Python Anda menggunakan perintah berikut di konsol:
pip install groupdocs_merger_cloud
Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID dan rahasia Anda, tambahkan kode seperti yang ditunjukkan di bawah ini:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Ekstrak Halaman Tertentu dari PDF menggunakan REST API dengan Python
Anda dapat mengekstrak halaman tertentu dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Unggah file PDF ke Cloud
- Ekstrak Halaman Tertentu berdasarkan Nomor Halaman dari file PDF yang diunggah
- Unduh file yang diekstraksi
Unggah Dokumen
Pertama-tama, unggah dokumen PDF multi halaman ke Cloud menggunakan contoh kode di bawah ini:
# membuat instance API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# mengunggah file sampel
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)
Hasilnya, file PDF akan diunggah ke Cloud Storage dan akan tersedia di bagian file dasbor Anda.
Ekstrak Halaman Tertentu berdasarkan Nomor Halaman menggunakan Python
Silakan ikuti langkah-langkah yang disebutkan di bawah ini untuk mengekstrak halaman tertentu atau beberapa halaman dari dokumen PDF secara terprogram.
- Buat instance Document API.
- Berikan SplitOptions
- Tetapkan jalur file input
- Tetapkan jalur direktori Keluaran
- Berikan nomor halaman yang dipisahkan koma untuk diekstrak
- Setel mode ke Halaman
- Buat SplitRequest
- Dapatkan hasil dengan memanggil metode DocumentApi.split().
Contoh kode berikut menunjukkan cara mengekstrak halaman dengan memberikan nomor halaman tertentu dari dokumen PDF menggunakan REST API.
# inisialisasi api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
# menentukan opsi pemisahan
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"
# buat permintaan pemisahan
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
Unduh File Halaman yang Diekstrak
Contoh kode di atas akan menyimpan halaman yang diekstraksi dalam file PDF terpisah di cloud. Anda dapat mengunduhnya menggunakan contoh kode berikut:
# inisialisasi api
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# permintaan file unduhan
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)
# pindahkan file yang diunduh ke direktori kerja Anda
shutil.move(response, "C:\\Files\\")
Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python
Silakan ikuti langkah-langkah yang disebutkan di bawah ini untuk mengekstrak halaman dari dokumen PDF dengan menyediakan rentang halaman secara terprogram.
- Buat instance Document API.
- Berikan SplitOptions
- Tetapkan jalur file input
- Tetapkan jalur direktori Keluaran
- Berikan rentang halaman dengan mengatur nomor halaman awal dan nomor halaman akhir yang akan diekstrak
- Setel mode ke Halaman
- Buat SplitRequest
- Dapatkan hasil dengan memanggil metode DocumentApi.split().
- Buat DownloadFileRequest
- Unduh file dengan memanggil metode FileApi.download\file().
Contoh kode berikut menunjukkan cara mengekstrak halaman dengan menyediakan rentang halaman dari dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunggah file.
# inisialisasi api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# menentukan opsi pemisahan
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"
# buat permintaan pemisahan
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
# tampilkan hasil dan unduh file satu per satu
for data in result.documents:
print("Document Url = " + str(data))
# buat permintaan file unduhan
request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
response = file_api.download_file(request)
# Pindahkan file yang diunduh ke direktori kerja Anda
shutil.move(response, "C:\\Files\\")
Coba Daring
Silakan coba alat pembagi PDF online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/splitter/pdf
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mengekstrak halaman tertentu dari dokumen PDF di cloud menggunakan Python. Anda juga mempelajari cara mengunggah file PDF secara terprogram di cloud dan kemudian mengunduh file yang diekstraksi dari cloud. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Merger Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.