Ekstrak Halaman Tertentu dari PDF menggunakan Python

Anda mungkin perlu mengekstrak halaman tertentu dari dokumen PDF atau mungkin perlu membagi dokumen PDF besar menjadi bagian yang lebih kecil. Sebagai pengembang Python, Anda dapat dengan mudah mengekstrak halaman tertentu dari dokumen PDF berdasarkan nomor halaman atau rentang halaman secara terprogram. Pada artikel ini, Anda akan mempelajari cara mengekstrak halaman tertentu dari dokumen PDF menggunakan REST API dengan Python.

Topik-topik berikut akan dibahas dalam artikel ini:

Document Splitter REST API dan Python SDK
Ekstrak Halaman Tertentu dari PDF menggunakan REST API
Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python

Document Splitter REST API dan Python SDK

Untuk mengekstrak halaman dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Merger Cloud API. Ini adalah Cloud SDK kaya fitur dan berkinerja tinggi yang digunakan untuk menggabungkan beberapa dokumen menjadi satu dokumen. Ini juga memungkinkan Anda untuk membagi satu dokumen menjadi beberapa dokumen. SDK menawarkan fungsionalitas untuk menghapus, menukar, memutar, atau mengubah orientasi halaman untuk keseluruhan atau rentang halaman yang disukai dan melakukan manipulasi lain dengan mudah untuk semua format file yang didukung seperti lembar kerja PDF, Word, Powerpoint, dan Excel. Saat ini, ia juga menyediakan SDK .NET, Java, PHP, Ruby, Android, dan Node.js sebagai anggota keluarga penggabungan dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Merger-Cloud ke proyek Python Anda menggunakan perintah berikut di konsol:

pip install groupdocs_merger_cloud

Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID dan rahasia Anda, tambahkan kode seperti yang ditunjukkan di bawah ini:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Ekstrak Halaman Tertentu dari PDF menggunakan REST API dengan Python

Anda dapat mengekstrak halaman tertentu dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Unggah file PDF ke Cloud
Ekstrak Halaman Tertentu berdasarkan Nomor Halaman dari file PDF yang diunggah
Unduh file yang diekstraksi

Unggah Dokumen

Pertama-tama, unggah dokumen PDF multi halaman ke Cloud menggunakan contoh kode di bawah ini:

# membuat instance API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# mengunggah file sampel
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

Hasilnya, file PDF akan diunggah ke Cloud Storage dan akan tersedia di bagian file dasbor Anda.

Ekstrak Halaman Tertentu berdasarkan Nomor Halaman menggunakan Python

Silakan ikuti langkah-langkah yang disebutkan di bawah ini untuk mengekstrak halaman tertentu atau beberapa halaman dari dokumen PDF secara terprogram.

Buat instance Document API.
Berikan SplitOptions
Tetapkan jalur file input
Tetapkan jalur direktori Keluaran
Berikan nomor halaman yang dipisahkan koma untuk diekstrak
Setel mode ke Halaman
Buat SplitRequest
Dapatkan hasil dengan memanggil metode DocumentApi.split().

Contoh kode berikut menunjukkan cara mengekstrak halaman dengan memberikan nomor halaman tertentu dari dokumen PDF menggunakan REST API.

# inisialisasi api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# menentukan opsi pemisahan
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# buat permintaan pemisahan
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))

Ekstrak Halaman Tertentu Dari PDF menggunakan Python

Unduh File Halaman yang Diekstrak

Contoh kode di atas akan menyimpan halaman yang diekstraksi dalam file PDF terpisah di cloud. Anda dapat mengunduhnya menggunakan contoh kode berikut:

# inisialisasi api
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# permintaan file unduhan
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# pindahkan file yang diunduh ke direktori kerja Anda
shutil.move(response, "C:\\Files\\")

Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python

Silakan ikuti langkah-langkah yang disebutkan di bawah ini untuk mengekstrak halaman dari dokumen PDF dengan menyediakan rentang halaman secara terprogram.

Buat instance Document API.
Berikan SplitOptions
Tetapkan jalur file input
Tetapkan jalur direktori Keluaran
Berikan rentang halaman dengan mengatur nomor halaman awal dan nomor halaman akhir yang akan diekstrak
Setel mode ke Halaman
Buat SplitRequest
Dapatkan hasil dengan memanggil metode DocumentApi.split().
Buat DownloadFileRequest
Unduh file dengan memanggil metode FileApi.download\file().

Contoh kode berikut menunjukkan cara mengekstrak halaman dengan menyediakan rentang halaman dari dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunggah file.

# inisialisasi api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# menentukan opsi pemisahan
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# buat permintaan pemisahan
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# tampilkan hasil dan unduh file satu per satu
for data in result.documents:
    print("Document Url = " + str(data))
    
    # buat permintaan file unduhan
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Pindahkan file yang diunduh ke direktori kerja Anda
    shutil.move(response, "C:\\Files\\")

Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python

Coba Daring

Silakan coba alat pembagi PDF online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/splitter/pdf

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak halaman tertentu dari dokumen PDF di cloud menggunakan Python. Anda juga mempelajari cara mengunggah file PDF secara terprogram di cloud dan kemudian mengunduh file yang diekstraksi dari cloud. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Merger Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga

Menggabungkan File PDF menggunakan REST API

Document Splitter REST API dan Python SDK#

Ekstrak Halaman Tertentu dari PDF menggunakan REST API dengan Python#

Unggah Dokumen#

Ekstrak Halaman Tertentu berdasarkan Nomor Halaman menggunakan Python#

Unduh File Halaman yang Diekstrak#

Ekstrak Halaman berdasarkan Rentang Halaman menggunakan Python#

Coba Daring#

Kesimpulan#

Lihat juga#