Python Ekstrak Teks dari Dokumen PDF

PDF (Portable Document Format) adalah salah satu format file yang paling penting dan banyak digunakan untuk mempresentasikan dan bertukar dokumen. Sebagai pengembang python, ada banyak skenario di mana Anda ingin mengekstrak teks dari dokumen PDF dan mengekspornya dalam format berbeda menggunakan Python untuk analitik teks. Dalam postingan ini, kami akan menunjukkan cara mengekstrak teks dari dokumen PDF secara akurat menggunakan GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud adalah solusi REST API independen platform untuk konversi dokumen dan gambar tanpa bergantung pada aplikasi pihak ketiga mana pun. Itu mengubah 50+ jenis dokumen dari satu format ke format lainnya. Ini menawarkan SDK untuk semua bahasa pemrograman populer termasuk Python, sehingga pengembang dapat menggunakan API secara langsung dalam aplikasi mereka tanpa khawatir tentang panggilan REST API yang mendasarinya.

Mari kita mulai kodenya:

Instal Paket Cloud GroupDocs.Conversion

Hal pertama yang pertama, instal paket groupdocs-conversion-cloud dari pypi dengan perintah berikut.

>pip instal groupdocs-conversion-cloud

Contoh Ekstraksi Teks Python PDF

Kami akan mengikuti langkah-langkah ini untuk mengekstrak teks dari Dokumen PDF:

  • Daftar gratis dengan groupdocs.cloud to get your AppSID and AppKey
  • Buat modul python dan salin tempel kode berikut di dalamnya. Kami telah menggunakan opsi default untuk mengekstrak teks dari dokumen PDF. Anda juga dapat mengekstrak teks dari halaman tertentu menggunakan Convert Options dari format teks.
# Impor modul
import groupdocs_conversion_cloud

# Dapatkan app_sid dan app_key Anda di https://dashboard.groupdocs.cloud (diperlukan pendaftaran gratis).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Buat instance API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Jalankan kode di IDE favorit Anda, Anda akan mendapatkan hasil berikut dan hanya itu. Tugas selesai!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Jangan ragu untuk memberi kami komentar di forum dukungan untuk membagikan pendapat Anda tentang GroupDocs.Conversion Cloud API. Atau beri tahu kami jika Anda memiliki saran atau jika Anda memerlukan fitur tertentu yang Anda harapkan dimiliki oleh REST API kami.