Ekstrak Teks dari PDF menggunakan Node.js - Ekstraktor Teks

Membuka teks dari PDF file sangat penting untuk pengindeksan konten, otomasi, dan analisis data. Dengan GroupDocs.Parser Cloud SDK untuk Node.js, Anda dapat mengekstrak teks biasa atau terstruktur dari PDF secara programatis melalui API RESTful yang sederhana — tanpa bergantung pada alat berat atau penguraian manual.

Mengapa mengekstrak teks dari PDF??

Menarik teks dari PDF sangat penting untuk:

  • Membangun manajemen dokumen atau jalur OCR.
  • Mengotomatisasi pengumpulan data dari kontrak, faktur, dan laporan.
  • Mengaktifkan pencarian teks lengkap untuk arsip digital.
  • Membersihkan dan menyusun konten untuk model AI/ML.

Mari kita bahas topik berikut dengan lebih rinci:

API REST Ekstraksi Teks

SDK GroupDocs.Parser Cloud untuk Node.js adalah pembungkus yang ringan dan berkinerja tinggi untuk berinteraksi dengan API REST GroupDocs.Parser Cloud. Ini memungkinkan pengembang untuk mengekstrak konten terstruktur atau tidak terstruktur, seperti:

  • Teks (seluruh dokumen, halaman tertentu, atau area yang dipilih)
  • Images
  • Metadata
  • Bidang dokumen
  • Data terstruktur dari tabel atau formulir

Ini mendukung berbagai format — termasuk PDF, Word, Excel, PowerPoint, MSG, ZIP, dan lainnya.

Prasyarat Instal SDK GroupDocs.Parser Cloud untuk Node.js:

npm install groupdocs-parser-cloud

Buat akun di GroupDocs.Cloud Dashboard untuk mendapatkan ID Klien dan Rahasia Klien Anda untuk autentikasi. Untuk informasi lebih lanjut, silakan kunjungi artikel.

Cara Mengambil Teks dari PDF menggunakan Node.js

Ikuti langkah-langkah ini untuk mengekstrak teks dari PDF menggunakan SDK Node.js.

Langkah 1: Atur Konfigurasi:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Langkah 2: Konfigurasi Input File PDF: Inisialisasi sebuah objek dari kelas TextRequest dan berikan instance dari kelas TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Langkah 3: Ekstrak Teks dari PDF: Panggil metode text, dan itu akan mengembalikan konten teks biasa dari PDF Anda.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Untuk lebih banyak contoh, silakan kunjungi https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Anda dapat melihat output dari contoh kode di atas pada gambar di bawah ini:

pdf text extractor

Extract Text from PDF via cURL

Jika Anda lebih memilih operasi baris perintah atau ingin mengintegrasikan ke dalam skrip? Anda dapat mengekstrak teks menggunakan cURL dengan GroupDocs.Parser REST API.

Langkah 1 – Buat Token Akses:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Langkah 2 – Ekstrak Gambar melalui REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Ganti dengan yang Anda buat.

Manfaat Menggunakan cURL dengan GroupDocs.Parser API

  • Tidak Perlu SDK: Gunakan REST langsung untuk integrasi cepat.
  • Platform Agnostic: Bekerja dengan sistem operasi atau bahasa apapun.
  • Ideal for CI/CD Pipelines: Automatisasi ekstraksi teks di lingkungan DevOps.
  • Ringan: Tidak ada instalasi selain cURL.

Online Text Extractor

Jika Anda mencari solusi tanpa kode, maka gunakan PDF Text Extractor Gratis Online kami yang didukung oleh GroupDocs.Parser Cloud.

Ekstraktor Gambar Daring

Kesimpulan

GroupDocs.Parser Cloud SDK untuk Node.js membuatnya mudah untuk mengekstrak teks dari PDF, apakah Anda memerlukan penguraian konten penuh, penambangan data, atau otomatisasi dokumen. Dengan dukungan untuk panggilan RESTful dan integrasi cURL, API ini ideal untuk membangun aplikasi pemrosesan dokumen yang modern dan skalabel di Node.js atau lingkungan lainnya.

📚 Sumber Daya Tambahan

Pertanyaan yang Sering Diajukan – FAQs

Bagaimana cara mengekstrak gambar dari Word?

Anda dapat menggunakan GroupDocs.Parser Cloud SDKs untuk mengekstrak teks dari file PDF secara programatis. Silakan kunjungi link ini untuk detail lebih lanjut.

Apa model penetapan harga?

Kami menawarkan model harga bayar per penggunaan tunggal. Untuk informasi lebih lanjut, silakan kunjungi pricing guide.

Artikel yang Direkomendasikan