Ekstrak Teks dari Dokumen PDF menggunakan REST API dengan Python

Ekstrak Teks dari PDF menggunakan Python

Anda mungkin perlu membaca dan mengekstrak teks dari dokumen PDF di aplikasi Python Anda. Jadi, sebagai pengembang Python, Anda dapat dengan mudah mengekstrak semua teks dari dokumen PDF secara terprogram di cloud. Artikel ini akan menjelaskan cara mengekstrak teks dari dokumen PDF menggunakan REST API dengan Python.

Topik-topik berikut akan dibahas dalam artikel ini:

Document Parser REST API dan Python SDK
Ekstrak Teks dari PDF menggunakan REST API

Document Parser REST API dan Python SDK

Untuk mengekstraksi teks dari dokumen PDF, saya akan menggunakan Python SDK of GroupDocs.Parser Cloud API. Ini memungkinkan python mendapatkan teks dari pdf dan mem-parsing data dari semua jenis dokumen populer. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan SDK .NET, Java, PHP, Ruby, dan Node.js sebagai anggota keluarga parser dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Parser Cloud ke proyek Python Anda dengan pip (penginstal paket untuk python) menggunakan perintah berikut di konsol:

pip install groupdocs_parser_cloud

Dapatkan ID Klien dan Rahasia Klien Anda dari dashboard sebelum Anda mulai mengikuti langkah-langkah dan contoh kode yang tersedia. Setelah Anda memiliki ID klien dan Rahasia, tambahkan kode seperti yang ditunjukkan di bawah ini:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Ekstrak Teks dari PDF menggunakan REST API dengan Python

Anda dapat mengekstrak teks dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Unggah file PDF ke Cloud
Ekstrak Teks dari Dokumen PDF menggunakan Python
Baca Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Python
Dapatkan Teks Dari Dokumen Terlampir dengan PDF menggunakan Python

Unggah Dokumen

Pertama-tama, unggah dokumen PDF untuk mendapatkan teks dari pdf python menggunakan contoh kode di bawah ini:

# inisialisasi api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Hasilnya, file PDF yang diunggah (sample.pdf) akan tersedia di files section dasbor Anda di cloud. Sekarang Anda siap untuk mengekstrak konten dari pdf.

Ekstrak Teks dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak teks dari pdf dengan python secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

Buat instance ParseApi
Tentukan TextOptions
Tetapkan jalur ke file PDF
Buat Permintaan Teks
Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak semua teks dari dokumen PDF menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Baca Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Python

Anda dapat dengan mudah mengekstrak teks dari halaman tertentu dari file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

Buat instance ParseApi
Tentukan TextOptions
Berikan jalur ke file PDF
Tetapkan nomor halaman awal
atur jumlah halaman yang akan diekstrak
Buat Permintaan Teks
Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak kata dari pdf dengan Python berdasarkan rentang nomor halaman menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Ekstrak teks dari file pdf dengan Rentang Nomor Halaman — *Ekstrak Teks dengan Rentang Nomor Halaman*

Dapatkan Teks Dari Dokumen Terlampir dengan PDF menggunakan Python

Anda dapat mengekstrak teks dari dokumen di dalam wadah, tersedia sebagai lampiran dalam file PDF secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

Buat instance ParseApi
Tentukan TextOptions
Tetapkan jalur ke file PDF
Tentukan ContainerItemInfo
Berikan jalur relatif dari dokumen di dalam
Tetapkan nomor halaman awal
atur jumlah halaman yang akan diekstrak
Buat Permintaan Teks
Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak teks dari dokumen di dalam dokumen PDF menggunakan REST API.

# inisialisasi api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# menentukan pilihan teks
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

*Ekstrak Teks Dari Dokumen Di Dalam Wadah*

Coba Daring

Bagaimana cara mengekstrak teks dari pdf online gratis? Silakan coba alat Parsing PDF online gratis berikut untuk mengekstrak teks dari pdf gratis. Ekstraktor teks pdf ini dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/pdf

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengekstrak teks dari dokumen PDF di cloud. Artikel ini juga menjelaskan cara mengunggah file PDF secara terprogram di cloud dan ekstraktor teks pdf online. Selain itu, kami juga belajar hanya mengekstrak teks dari pdf berdasarkan nomor halaman dan ekstraksi teks python dari pdf dari dokumen terlampir.

Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas tentang ekstraksi teks pdf dan mengekstrak teks dari pdf python, jangan ragu untuk menghubungi kami di forum.

Lihat juga

Solusi REST API untuk Mengurai Dokumen dan Mengekstrak Data

Document Parser REST API dan Python SDK#

Ekstrak Teks dari PDF menggunakan REST API dengan Python#

Unggah Dokumen#

Ekstrak Teks dari Dokumen PDF menggunakan Python#

Baca Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Python#

Dapatkan Teks Dari Dokumen Terlampir dengan PDF menggunakan Python#

Coba Daring#

Kesimpulan#

Lihat juga#