Ekstrak Gambar dari Dokumen PDF

Anda mungkin perlu mengekstrak gambar dari dokumen PDF atau Word untuk menggunakannya kembali. Anda dapat dengan mudah mengekstrak gambar dari dokumen PDF secara terprogram di cloud. Artikel ini akan menjelaskan cara mengekstrak gambar dari dokumen PDF menggunakan REST API dengan Python.

Topik-topik berikut akan dibahas dalam artikel ini:

Document Parser REST API dan Python SDK

Untuk mengekstrak gambar dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Parser Cloud API. Ini memungkinkan Anda untuk mengurai data dari semua jenis dokumen populer. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan SDK .NET, Java, PHP, Ruby, dan Node.js sebagai anggota keluarga parser dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Parser Cloud ke proyek Python Anda dengan pip (penginstal paket untuk python) menggunakan perintah berikut di konsol:

pip install groupdocs_parser_cloud

Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID klien dan Rahasia, tambahkan kode seperti yang ditunjukkan di bawah ini:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Ekstrak Gambar dari PDF menggunakan REST API dengan Python

Anda dapat mengekstrak gambar dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Unggah Dokumen

Pertama-tama, unggah dokumen PDF ke Cloud menggunakan contoh kode di bawah ini:

# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Hasilnya, file PDF yang diunggah (sample.pdf) akan tersedia di files section dasbor Anda di cloud.

Ekstrak Semua Gambar dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak semua gambar dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan ImageOptions
  • Tetapkan jalur ke file PDF
  • Buat Permintaan Gambar
  • Dapatkan hasil dengan memanggil metode ParseApi.images().

Contoh kode berikut menunjukkan cara mengekstrak semua gambar dari dokumen PDF menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Ekstrak semua gambar dari dokumen PDF.

Ekstrak semua gambar dari dokumen PDF.

Unduh Gambar yang Diekstrak

Contoh kode di atas akan menyimpan gambar yang diekstraksi di cloud. Anda dapat mengunduh gambar-gambar ini menggunakan contoh kode yang diberikan di bawah ini:

# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Unduh gambar 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Pindahkan file yang diunduh ke direktori kerja Anda
shutil.move(response, "C:\\Files\\Images")

Simpan Gambar dengan Nomor Halaman dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak gambar dari halaman tertentu dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan ImageOptions
  • Berikan jalur ke file PDF
  • Tetapkan nomor halaman awal
  • Tetapkan jumlah halaman yang akan diekstrak
  • Buat Permintaan Gambar
  • Dapatkan hasil dengan memanggil metode ParseApi.images().

Contoh kode berikut menunjukkan cara mengekstrak gambar menurut rentang nomor halaman dari dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunduh gambar yang diekstrak.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# menentukan rentang halaman
options.start_page_number = 1
options.count_pages_to_extract = 1

# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Ekstrak gambar berdasarkan rentang nomor halaman dari dokumen PDF.

Ekstrak gambar berdasarkan rentang nomor halaman dari dokumen PDF.

Dapatkan Gambar Dari Dokumen Terlampir dengan PDF menggunakan Python

Anda dapat mengekstrak gambar dari dokumen di dalam wadah, tersedia sebagai lampiran dalam file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan ImageOptions
  • Tetapkan jalur ke file PDF
  • Tentukan ContainerItemInfo
  • Berikan jalur relatif dari dokumen di dalam
  • Tetapkan nomor halaman awal
  • Tetapkan jumlah halaman yang akan diekstrak
  • Buat Permintaan Gambar
  • Dapatkan hasil dengan memanggil metode ParseApi.images().

Contoh kode berikut menunjukkan cara mengekstrak gambar dari dokumen di dalam dokumen PDF menggunakan REST API. Silakan ikuti langkah-langkah yang disebutkan sebelumnya untuk mengunduh gambar yang diekstraksi.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan gambar
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# mengatur item wadah
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# menentukan rentang halaman
options.start_page_number = 2
options.count_pages_to_extract = 1

# membuat permintaan
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Ekstrak gambar dari dokumen yang dilampirkan dalam dokumen PDF

Ekstrak gambar dari dokumen yang dilampirkan dalam dokumen PDF.

Coba Daring

Silakan coba alat Parsing PDF online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/pdf

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak gambar dari dokumen PDF di cloud. Artikel ini juga menjelaskan cara mengunggah file PDF secara terprogram di cloud. Anda juga belajar cara mengunduh gambar yang diekstraksi menggunakan SDK. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga