
Membuka teks dari PDF file sangat penting untuk pengindeksan konten, otomasi, dan analisis data. Dengan GroupDocs.Parser Cloud SDK untuk Node.js, Anda dapat mengekstrak teks biasa atau terstruktur dari PDF secara programatis melalui API RESTful yang sederhana — tanpa bergantung pada alat berat atau penguraian manual.
Mengapa mengekstrak teks dari PDF??
Menarik teks dari PDF sangat penting untuk:
- Membangun manajemen dokumen atau jalur OCR.
- Mengotomatisasi pengumpulan data dari kontrak, faktur, dan laporan.
- Mengaktifkan pencarian teks lengkap untuk arsip digital.
- Membersihkan dan menyusun konten untuk model AI/ML.
Mari kita bahas topik berikut dengan lebih rinci:
- Ekstraksi Teks REST API
- Cara Mengambil Teks dari PDF menggunakan Node.js
- Extract Text from PDF via cURL
- Ekstraktor Teks Daring
API REST Ekstraksi Teks
SDK GroupDocs.Parser Cloud untuk Node.js adalah pembungkus yang ringan dan berkinerja tinggi untuk berinteraksi dengan API REST GroupDocs.Parser Cloud. Ini memungkinkan pengembang untuk mengekstrak konten terstruktur atau tidak terstruktur, seperti:
- Teks (seluruh dokumen, halaman tertentu, atau area yang dipilih)
- Images
- Metadata
- Bidang dokumen
- Data terstruktur dari tabel atau formulir
Ini mendukung berbagai format — termasuk PDF, Word, Excel, PowerPoint, MSG, ZIP, dan lainnya.
Prasyarat Instal SDK GroupDocs.Parser Cloud untuk Node.js:
npm install groupdocs-parser-cloud
Buat akun di GroupDocs.Cloud Dashboard untuk mendapatkan ID Klien dan Rahasia Klien Anda untuk autentikasi. Untuk informasi lebih lanjut, silakan kunjungi artikel.
Cara Mengambil Teks dari PDF menggunakan Node.js
Ikuti langkah-langkah ini untuk mengekstrak teks dari PDF menggunakan SDK Node.js.
Langkah 1: Atur Konfigurasi:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Langkah 2: Konfigurasi Input File PDF: Inisialisasi sebuah objek dari kelas TextRequest dan berikan instance dari kelas TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Langkah 3: Ekstrak Teks dari PDF: Panggil metode text, dan itu akan mengembalikan konten teks biasa dari PDF Anda.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Untuk lebih banyak contoh, silakan kunjungi https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Anda dapat melihat output dari contoh kode di atas pada gambar di bawah ini:

Extract Text from PDF via cURL
Jika Anda lebih memilih operasi baris perintah atau ingin mengintegrasikan ke dalam skrip? Anda dapat mengekstrak teks menggunakan cURL dengan GroupDocs.Parser REST API.
Langkah 1 – Buat Token Akses:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Langkah 2 – Ekstrak Gambar melalui REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Ganti dengan yang Anda buat.
Manfaat Menggunakan cURL dengan GroupDocs.Parser API
- Tidak Perlu SDK: Gunakan REST langsung untuk integrasi cepat.
- Platform Agnostic: Bekerja dengan sistem operasi atau bahasa apapun.
- Ideal for CI/CD Pipelines: Automatisasi ekstraksi teks di lingkungan DevOps.
- Ringan: Tidak ada instalasi selain cURL.
Online Text Extractor
Jika Anda mencari solusi tanpa kode, maka gunakan PDF Text Extractor Gratis Online kami yang didukung oleh GroupDocs.Parser Cloud.

Kesimpulan
GroupDocs.Parser Cloud SDK untuk Node.js membuatnya mudah untuk mengekstrak teks dari PDF, apakah Anda memerlukan penguraian konten penuh, penambangan data, atau otomatisasi dokumen. Dengan dukungan untuk panggilan RESTful dan integrasi cURL, API ini ideal untuk membangun aplikasi pemrosesan dokumen yang modern dan skalabel di Node.js atau lingkungan lainnya.
📚 Sumber Daya Tambahan
Pertanyaan yang Sering Diajukan – FAQs
Bagaimana cara mengekstrak gambar dari Word?
Anda dapat menggunakan GroupDocs.Parser Cloud SDKs untuk mengekstrak teks dari file PDF secara programatis. Silakan kunjungi link ini untuk detail lebih lanjut.
Apa model penetapan harga?
Kami menawarkan model harga bayar per penggunaan tunggal. Untuk informasi lebih lanjut, silakan kunjungi pricing guide.