Ekstrak Gambar dari Dokumen menggunakan Python

Jika Anda seorang pengembang Python dan ingin mengekstrak data dari dokumen, artikel ini akan memandu Anda untuk mengekstrak gambar dari berbagai dokumen pengolah kata, spreadsheet, presentasi, dan dokumen PDF menggunakan contoh Python sederhana.

Topik-topik berikut akan dibahas hari ini:

API REST Ekstraksi Gambar dan Python SDK

Dokumen Parsing Python SDK

Kali ini, kita akan menggunakan Python SDK dari GroupDocs.Parser Cloud API untuk mengekstrak gambar dari berbagai jenis dokumen. Namun, saat ini, ia juga menyediakan, .NET, Java, PHP, Ruby, dan Node.js SDK sebagai anggota keluarga parsing dokumen untuk Cloud API.

API juga mendukung ekstraksi teks dan metadata bersama dengan mengekstraksi gambar dari berbagai jenis dokumen seperti dokumen pengolah kata, spreadsheet, presentasi, email, arsip, markup, dan dokumen PDF.

Datang ke tujuan, pertama, dapatkan APP KEY dan APP SID dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia.

Ekstrak Gambar dari PDF menggunakan Python

Dokumen PDF untuk Mengekstrak Gambar, dapatkan gambar dari pdf atau ekstrak gambar dari pdf

Sebagai contoh, pertama saya akan mengekstrak gambar dari dokumen PDF. Dengan hanya mengikuti langkah-langkah sederhana, semua gambar dapat diekstraksi dengan mudah.

  • Unggah dokumen PDF ke Cloud.
  • Ekstrak gambar dari dokumen yang diunggah.
  • Unduh gambar yang diekstraksi.

Unggah Dokumen PDF

Pertama, unggah dokumen PDF ke Cloud menggunakan salah satu metode berikut:

Hasilnya, file PDF akan diunggah di Cloud Storage

File PDF diunggah di dasbor

File PDF yang diunggah di dashboard.groupdocs.cloud/#/files

Ekstrak Gambar dari Dokumen PDF yang Diunggah

Sekarang Anda telah selesai dengan bagian yang sulit untuk mengekstrak semua foto dari pdf. Mengikuti kode Python akan memungkinkan Anda dengan cepat mengekstrak semua gambar dari dokumen PDF yang diunggah.

# Cara mengekstrak gambar dari dokumen Word, spreadsheet Excel, Presentasi atau dokumen PDF dengan Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Dapatkan APP SID dan APP Key dari https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Tampilkan properti Gambar yang diekstrak
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Unduh Gambar yang Diekstraksi

Setelah Anda mengekstraksi gambar, Anda dapat mengunduh gambar dari cloud baik dari dasbor atau secara terprogram. Gambar yang ditampilkan di sini diekstraksi dari dokumen PDF yang ditampilkan di atas.

Gambar diekstraksi dari file PDF

Gambar diekstrak dari dokumen PDF

Mengekstrak Gambar dari Dokumen menggunakan Python

Ekstrak gambar berkualitas tinggi dari file pdf, xlsx, pptx atau docx

Ekstraksi Gambar dari Excel, PPT, atau Word Docs menggunakan Python

Demikian pula, Anda dapat mengekstrak semua gambar dari dokumen Word, spreadsheet, presentasi dengan kode python yang disebutkan di atas untuk dokumen PDF. Anda hanya perlu mengubah jalur file dengan nama dokumen yang benar dengan ekstensi.

# Ekstrak gambar dari dokumen Word, spreadsheet Excel, Presentasi dengan Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Ubah saja jalur dokumen sesuai kebutuhan (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Ekstrak Gambar dari Dokumen Online

Bagaimana cara mengekstrak gambar dari file atau dokumen online gratis? Groupdocs.Parser menyediakan alat online gratis untuk mengekstrak gambar dari kata online, mengekstrak semua gambar dari pdf, menyimpan semua gambar dalam powerpoint atau mengekstrak gambar dari xlsx python. Cukup pilih dokumen yang ingin Anda ekstrak gambar jpg, png, jpeg atau gif.

Ekstrak gambar dari pdf online gratis, ekstrak gambar dari excel online, ekstrak gambar dari kata online dan alat ekstrak gambar dari pptx online telah dikembangkan menggunakan Groupdocs.Parser Python API.

Kesimpulan

Pada artikel ini kita telah belajar, cara mengekstrak gambar secara terprogram dari Word, Excel, PowerPoint, PDF, dan dokumen lain menggunakan Python. Tidak ada perbedaan dalam kode, kita hanya perlu mengubah jalur dan jenis dokumen sumber.

Untuk fitur lainnya dan mempelajari lebih lanjut tentang API penguraian dokumen, kunjungi dokumentasi untuk artikel yang juga berisi contoh. Cara terbaik untuk menguji fitur-fitur yang disorot adalah dengan mencoba contoh-contoh yang menjalankan sumber terbuka dari GitHub. Jika ada kebingungan, Tim Dukungan GroupDocs dengan senang hati memfasilitasi Anda. Terima kasih

Berikan pertanyaan

Jika Anda memiliki pertanyaan tentang cara mengekstrak gambar dari PDF, XLSX, PPTX, atau Word DOCX menggunakan Python, jangan ragu untuk bertanya kepada kami di Forum Dukungan Gratis

Lihat juga