Ekstrak Teks dari dokumen Word menggunakan API Node.js - Ekstraktor Teks

Jika Anda perlu mengekstrak teks biasa atau terstruktur dari dokumen Microsoft Word untuk otomatisasi, pengindeksan, atau analisis, GroupDocs.Parser Cloud SDK untuk Node.js menawarkan solusi RESTful yang dapat diandalkan. Dengan hanya beberapa baris kode, Anda dapat mengekstrak konten dari .doc dan .docx tanpa menginstal Microsoft Word atau menggunakan alat sisi server.

API Ekstraksi Teks Dokumen Word

SDK GroupDocs.Parser Cloud untuk Node.js adalah pembungkus untuk REST API yang menyederhanakan ekstraksi:

  • Text (full document or selective pages).
  • Tabel dan data terstruktur.
  • Metadata dan bidang yang tersemat.
  • Lampiran dan gambar.

Ini mendukung berbagai format, termasuk PDF, Word, Excel, PowerPoint, MSG, ZIP, dan lainnya.

Syarat Prabaku

  1. Buat akun di GroupDocs.Cloud Dashboard.
  2. Dapatkan Client ID dan Client Secret Anda.
  3. Instal SDK:
npm install groupdocs-parser-cloud

Anda mungkin mempertimbangkan untuk mengunjungi artikel berikut untuk belajar lebih lanjut tentang, how to obtain your Client ID and Client Secret for authentication.

Word Document Text Extraction API

Silakan ikuti langkah-langkah yang diberikan di bawah ini untuk informasi tentang cara mengekstrak teks dari dokumen Word menggunakan SDK Node.js.

Langkah 1: Inisialisasi Konfigurasi:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Langkah 2: Atur Info File dan Opsi Teks: Inisialisasi sebuah objek dari kelas TextRequest dan kirimkan instance dari kelas TextOptions.

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Langkah 3: Ekstrak Teks dari File Word: Panggil metode text, dan itu akan mengembalikan konten teks biasa dari dokumen Word.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// Untuk lebih banyak contoh, silakan kunjungi https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Anda dapat melihat output dari contoh kode di atas dalam gambar di bawah ini:

extract word document text

Extract Text from Word via cURL

Jika Anda lebih suka operasi baris perintah atau ingin mengintegrasikan ke dalam skrip? Anda dapat mengekstrak teks dari dokumen Word menggunakan cURL dan GroupDocs.Parser REST API.

Langkah 1 – Hasilkan Token Akses:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Langkah 2 – Ekstrak Teks melalui Panggilan API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Ganti dengan yang Anda hasilkan.

Manfaat menggunakan cURL dengan GroupDocs.Parser API

  • ✅ Tidak ada instalasi SDK.
  • ✅ Automasi lintas platform.
  • ✅ Ideal untuk skrip shell & pipeline CI.
  • ✅ Efisien dan ringan.

Online Word Text Extractor

Gunakan Free Online Word Text Extractor kami yang didukung oleh GroupDocs.Parser Cloud jika Anda lebih memilih opsi tanpa kode.

Pengambil teks kata daring

Kesimpulan

Dengan GroupDocs.Parser Cloud SDK untuk Node.js, Anda dapat dengan mudah mengekstrak teks dari dokumen Word (.docx atau .doc) untuk otomatisasi, pengindeksan, atau penambangan data. SDK dan REST API menawarkan opsi yang fleksibel dan dapat diskalakan, apakah Anda lebih memilih Node.js atau perintah cURL langsung.

📚 Sumber Daya Tambahan

Pertanyaan yang Sering Diajukan – FAQs

  1. Can I extract text from DOCX tables too?
  • Ya. GroupDocs.Parser dapat mengekstrak konten terstruktur, termasuk sel tabel dan data tata letak.
  1. Apakah Microsoft Word diperlukan?
  • Tidak. API berjalan di cloud dan tidak bergantung pada Microsoft Office.
  1. Apa model penetapan harga?
  • Kami menawarkan model harga bayar sesuai pemakaian. Untuk informasi lebih lanjut, silakan kunjungi pricing guide.
  1. Can I have free trial?
  • Ya. Setelah Anda berlangganan akun percobaan gratis, Anda dapat melakukan 150 panggilan API per bulan secara gratis. Silakan kunjungi pricing guide untuk informasi lebih lanjut.

Artikel yang Direkomendasikan