Anda mungkin perlu mengekstrak gambar dari dokumen PDF atau Word untuk menggunakannya kembali. Anda dapat dengan mudah mengekstrak gambar dari dokumen PDF secara terprogram di cloud. Artikel ini akan menjelaskan cara mengekstrak gambar dari dokumen PDF menggunakan REST API dengan Python.
Topik-topik berikut akan dibahas dalam artikel ini:
- Document Parser REST API dan Python SDK
- Ekstrak Gambar dari PDF menggunakan REST API
- Simpan Gambar berdasarkan Rentang Nomor Halaman menggunakan REST API
- Dapatkan Gambar Dari Dokumen Terlampir menggunakan REST API
Document Parser REST API dan Python SDK
Untuk mengekstrak gambar dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Parser Cloud API. Ini memungkinkan Anda untuk mengurai data dari semua jenis dokumen populer. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan SDK .NET, Java, PHP, Ruby, dan Node.js sebagai anggota keluarga parser dokumen untuk Cloud API.
Anda dapat menginstal GroupDocs.Parser Cloud ke proyek Python Anda dengan pip (penginstal paket untuk python) menggunakan perintah berikut di konsol:
pip install groupdocs_parser_cloud
Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID klien dan Rahasia, tambahkan kode seperti yang ditunjukkan di bawah ini:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Ekstrak Gambar dari PDF menggunakan REST API dengan Python
Anda dapat mengekstrak gambar dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:
- Unggah file PDF ke Cloud
- Ekstrak Gambar dari Dokumen PDF menggunakan Python
- Unduh the extracted images
Unggah Dokumen
Pertama-tama, unggah dokumen PDF ke Cloud menggunakan contoh kode di bawah ini:
# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
Hasilnya, file PDF yang diunggah (sample.pdf) akan tersedia di files section dasbor Anda di cloud.
Ekstrak Semua Gambar dari Dokumen PDF menggunakan Python
Anda dapat dengan mudah mengekstrak semua gambar dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.
- Buat instance ParseApi
- Tentukan ImageOptions
- Tetapkan jalur ke file PDF
- Buat Permintaan Gambar
- Dapatkan hasil dengan memanggil metode ParseApi.images().
Contoh kode berikut menunjukkan cara mengekstrak semua gambar dari dokumen PDF menggunakan REST API.
# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Unduh Gambar yang Diekstrak
Contoh kode di atas akan menyimpan gambar yang diekstraksi di cloud. Anda dapat mengunduh gambar-gambar ini menggunakan contoh kode yang diberikan di bawah ini:
# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# Unduh gambar
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# Pindahkan file yang diunduh ke direktori kerja Anda
shutil.move(response, "C:\\Files\\Images")
Simpan Gambar dengan Nomor Halaman dari Dokumen PDF menggunakan Python
Anda dapat dengan mudah mengekstrak gambar dari halaman tertentu dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.
- Buat instance ParseApi
- Tentukan ImageOptions
- Berikan jalur ke file PDF
- Tetapkan nomor halaman awal
- Tetapkan jumlah halaman yang akan diekstrak
- Buat Permintaan Gambar
- Dapatkan hasil dengan memanggil metode ParseApi.images().
Contoh kode berikut menunjukkan cara mengekstrak gambar menurut rentang nomor halaman dari dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunduh gambar yang diekstrak.
# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# menentukan rentang halaman
options.start_page_number = 1
options.count_pages_to_extract = 1
# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Dapatkan Gambar Dari Dokumen Terlampir dengan PDF menggunakan Python
Anda dapat mengekstrak gambar dari dokumen di dalam wadah, tersedia sebagai lampiran dalam file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.
- Buat instance ParseApi
- Tentukan ImageOptions
- Tetapkan jalur ke file PDF
- Tentukan ContainerItemInfo
- Berikan jalur relatif dari dokumen di dalam
- Tetapkan nomor halaman awal
- Tetapkan jumlah halaman yang akan diekstrak
- Buat Permintaan Gambar
- Dapatkan hasil dengan memanggil metode ParseApi.images().
Contoh kode berikut menunjukkan cara mengekstrak gambar dari dokumen di dalam dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunduh gambar yang diekstraksi.
# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# mengatur item wadah
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# menentukan rentang halaman
options.start_page_number = 2
options.count_pages_to_extract = 1
# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Coba Daring
Silakan coba alat Parsing PDF online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/pdf
Kesimpulan
Pada artikel ini, Anda telah mempelajari cara mengekstrak gambar dari dokumen PDF di cloud. Artikel ini juga menjelaskan cara mengunggah file PDF secara terprogram di cloud. Anda juga belajar cara mengunduh gambar yang diekstraksi menggunakan SDK. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.