Ekstrak Teks dari PDF menggunakan Python

Anda mungkin perlu membaca dan mengekstrak teks dari dokumen PDF di aplikasi Python Anda. Jadi, sebagai pengembang Python, Anda dapat dengan mudah mengekstrak semua teks dari dokumen PDF secara terprogram di cloud. Artikel ini akan menjelaskan cara mengekstrak teks dari dokumen PDF menggunakan REST API dengan Python.

Topik-topik berikut akan dibahas dalam artikel ini:

Document Parser REST API dan Python SDK

Untuk mengekstraksi teks dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Parser Cloud API. Ini memungkinkan python mendapatkan teks dari pdf dan mem-parsing data dari semua jenis dokumen populer. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan SDK .NET, Java, PHP, Ruby, dan Node.js sebagai anggota keluarga parser dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Parser Cloud ke proyek Python Anda dengan pip (penginstal paket untuk python) menggunakan perintah berikut di konsol:

pip install groupdocs_parser_cloud

Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID klien dan Rahasia, tambahkan kode seperti yang ditunjukkan di bawah ini:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Ekstrak Teks dari PDF menggunakan REST API dengan Python

Anda dapat mengekstrak teks dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Unggah Dokumen

Pertama-tama, unggah dokumen PDF untuk mendapatkan teks dari pdf python menggunakan contoh kode di bawah ini:

# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Hasilnya, file PDF yang diunggah (sample.pdf) akan tersedia di files section dasbor Anda di cloud. Sekarang Anda siap untuk mengekstrak konten dari pdf.

Ekstrak Teks dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak teks dari pdf dengan python secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan TextOptions
  • Tetapkan jalur ke file PDF
  • Buat Permintaan Teks
  • Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak semua teks dari dokumen PDF menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Ekstrak Teks Dari Seluruh Dokumen

Ekstrak Teks Dari Seluruh Dokumen

Baca Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak teks dari halaman tertentu dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan TextOptions
  • Berikan jalur ke file PDF
  • Tetapkan nomor halaman awal
  • atur jumlah halaman yang akan diekstrak
  • Buat Permintaan Teks
  • Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak kata dari pdf dengan Python berdasarkan rentang nomor halaman menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Ekstrak teks dari file pdf dengan Rentang Nomor Halaman

Ekstrak Teks dengan Rentang Nomor Halaman

Dapatkan Teks Dari Dokumen Terlampir dengan PDF menggunakan Python

Anda dapat mengekstrak teks dari dokumen di dalam wadah, tersedia sebagai lampiran dalam file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance ParseApi
  • Tentukan TextOptions
  • Tetapkan jalur ke file PDF
  • Tentukan ContainerItemInfo
  • Berikan jalur relatif dari dokumen di dalam
  • Tetapkan nomor halaman awal
  • atur jumlah halaman yang akan diekstrak
  • Buat Permintaan Teks
  • Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak teks dari dokumen di dalam dokumen PDF menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Ekstrak Teks Dari Dokumen Di Dalam Wadah

Ekstrak Teks Dari Dokumen Di Dalam Wadah

Coba Daring

Bagaimana cara mengekstrak teks dari pdf online gratis? Silakan coba alat Parsing PDF online gratis berikut untuk mengekstrak teks dari pdf gratis. Ekstraktor teks pdf ini dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/pdf

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari dokumen PDF di cloud. Artikel ini juga menjelaskan cara mengunggah file PDF secara terprogram di cloud dan ekstraktor teks pdf online. Selain itu, kami juga belajar hanya mengekstrak teks dari pdf berdasarkan nomor halaman dan ekstraksi teks python dari pdf dari dokumen terlampir.

Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas tentang ekstraksi teks pdf dan mengekstrak teks dari pdf python, jangan ragu untuk menghubungi kami di forum.

Lihat juga