Jika Anda seorang pengembang Python dan ingin mengekstrak data dari dokumen, artikel ini akan memandu Anda untuk mengekstrak gambar dari berbagai dokumen pengolah kata, spreadsheet, presentasi, dan dokumen PDF menggunakan contoh Python sederhana.
Topik-topik berikut akan dibahas hari ini:
- API REST Ekstraksi Gambar dan Python SDK
- Ekstrak Gambar dari Dokumen PDF menggunakan Python
- Ekstraksi Gambar dari Excel, PPT, atau Word Docs menggunakan Python
API REST Ekstraksi Gambar dan Python SDK
Kali ini, kita akan menggunakan Python SDK dari GroupDocs.Parser Cloud API untuk mengekstrak gambar dari berbagai jenis dokumen. Namun, saat ini, ia juga menyediakan, .NET, Java, PHP, Ruby, dan Node.js SDK sebagai anggota keluarga parsing dokumen untuk Cloud API.
API juga mendukung ekstraksi teks dan metadata bersama dengan mengekstraksi gambar dari berbagai jenis dokumen seperti dokumen pengolah kata, spreadsheet, presentasi, email, arsip, markup, dan dokumen PDF.
Datang ke tujuan, pertama, dapatkan APP KEY dan APP SID dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia.
Ekstrak Gambar dari PDF menggunakan Python
Sebagai contoh, pertama saya akan mengekstrak gambar dari dokumen PDF. Dengan hanya mengikuti langkah-langkah sederhana, semua gambar dapat diekstraksi dengan mudah.
- Unggah dokumen PDF ke Cloud.
- Ekstrak gambar dari dokumen yang diunggah.
- Unduh gambar yang diekstraksi.
Unggah Dokumen PDF
Pertama, unggah dokumen PDF ke Cloud menggunakan salah satu metode berikut:
- Menggunakan dasbor.
- Menggunakan Upload File API dari browser.
- Secara terprogram seperti yang disebutkan dalam dokumentasi.
Hasilnya, file PDF akan diunggah di Cloud Storage
Ekstrak Gambar dari Dokumen PDF yang Diunggah
Sekarang Anda telah selesai dengan bagian yang sulit untuk mengekstrak semua foto dari pdf. Mengikuti kode Python akan memungkinkan Anda dengan cepat mengekstrak semua gambar dari dokumen PDF yang diunggah.
# Cara mengekstrak gambar dari dokumen Word, spreadsheet Excel, Presentasi atau dokumen PDF dengan Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Dapatkan APP SID dan APP Key dari https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Tampilkan properti Gambar yang diekstrak
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Unduh Gambar yang Diekstraksi
Setelah Anda mengekstraksi gambar, Anda dapat mengunduh gambar dari cloud baik dari dasbor atau secara terprogram. Gambar yang ditampilkan di sini diekstraksi dari dokumen PDF yang ditampilkan di atas.
Ekstraksi Gambar dari Excel, PPT, atau Word Docs menggunakan Python
Demikian pula, Anda dapat mengekstrak semua gambar dari dokumen Word, spreadsheet, presentasi dengan kode python yang disebutkan di atas untuk dokumen PDF. Anda hanya perlu mengubah jalur file dengan nama dokumen yang benar dengan ekstensi.
# Ekstrak gambar dari dokumen Word, spreadsheet Excel, Presentasi dengan Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Ubah saja jalur dokumen sesuai kebutuhan (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Ekstrak Gambar dari Dokumen Online
Bagaimana cara mengekstrak gambar dari file atau dokumen online gratis? Groupdocs.Parser menyediakan alat online gratis untuk mengekstrak gambar dari kata online, mengekstrak semua gambar dari pdf, menyimpan semua gambar dalam powerpoint atau mengekstrak gambar dari xlsx python. Cukup pilih dokumen yang ingin Anda ekstrak gambar jpg, png, jpeg atau gif.
Ekstrak gambar dari pdf online gratis, ekstrak gambar dari excel online, ekstrak gambar dari kata online dan alat ekstrak gambar dari pptx online telah dikembangkan menggunakan Groupdocs.Parser Python API.
Kesimpulan
Pada artikel ini kita telah belajar, cara mengekstrak gambar secara terprogram dari Word, Excel, PowerPoint, PDF, dan dokumen lain menggunakan Python. Tidak ada perbedaan dalam kode, kita hanya perlu mengubah jalur dan jenis dokumen sumber.
Untuk fitur lainnya dan mempelajari lebih lanjut tentang API penguraian dokumen, kunjungi dokumentasi untuk artikel yang juga berisi contoh. Cara terbaik untuk menguji fitur-fitur yang disorot adalah dengan mencoba contoh-contoh yang menjalankan sumber terbuka dari GitHub. Jika ada kebingungan, Tim Dukungan GroupDocs dengan senang hati memfasilitasi Anda. Terima kasih
Berikan pertanyaan
Jika Anda memiliki pertanyaan tentang cara mengekstrak gambar dari PDF, XLSX, PPTX, atau Word DOCX menggunakan Python, jangan ragu untuk bertanya kepada kami di Forum Dukungan Gratis
Lihat juga
- Ekstrak semua gambar dari PDF dan ekstrak gambar dari PDF online menggunakan Node.js
- Ekstraksi data otomatis dari PDF dan ekstrak data dari PDF python online
- Ekstrak gambar dari PDF python dan ekstrak gambar dari PDF acrobat menggunakan Python
- Cara mengekstrak data tertentu dari dokumen word menggunakan REST API di Node.js
- Ekstrak data dari javascript PDF dan bahasa pemrograman terbaik untuk mengekstrak data dari PDF
- Ekstrak tabel dari dokumen kata python menggunakan REST API dengan Python