Parsing Dokumen Word menggunakan REST API di Node.js

Anda mungkin perlu mengekstrak teks atau gambar dari dokumen Word untuk berbagai keperluan. Anda dapat dengan mudah mengurai dokumen Word dan membaca teks secara terprogram di aplikasi Node.js Anda. Sebagai pengembang Node.js, Anda dapat mengekstrak semua teks dan gambar dari file DOCX secara terprogram di cloud. Artikel ini akan berfokus pada cara mengurai dokumen Word menggunakan REST API di Node.js.

Topik-topik berikut akan dibahas dalam artikel ini:

Document Parser REST API dan Node.js SDK

Untuk mem-parsing dokumen DOCX, saya akan menggunakan Node.js SDK dari GroupDocs.Parser Cloud API. Ini memungkinkan Anda untuk mengurai data dari lebih dari 50 jenis dokumen. Ini juga mendukung penguraian wadah seperti arsip ZIP, file data email OST/PST, eBuku, markup, dan portofolio PDF di aplikasi Node.js Anda. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan .NET, Java, PHP, Ruby, dan Python SDK sebagai anggota keluarga parser dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Parser Cloud ke aplikasi Node.js Anda menggunakan perintah berikut di konsol:

npm install groupdocs-parser-cloud 

Dapatkan ID dan Rahasia Klien Anda dari dashboard sebelum mengikuti langkah-langkah yang disebutkan. Setelah Anda memiliki ID dan rahasia Anda, tambahkan kode seperti yang ditunjukkan di bawah ini:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Parsing Dokumen Word dan Ekstrak Gambar menggunakan REST API di Node.js

Anda dapat menguraikan dokumen Word Anda dan mengekstrak gambar secara terprogram dengan mengikuti langkah-langkah yang disebutkan di bawah ini:

Unggah Dokumen

Pertama, unggah dokumen Word (DOCX) ke Cloud menggunakan contoh kode di bawah ini:

// menginisialisasi API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// membaca berkas
fs.readFile(resourcesFolder, (err, fileStream) => {
  // buat permintaan unggah file
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // unggah data
  fileApi.uploadFile(request);
});

Akibatnya, file DOCX yang diunggah akan tersedia di bagian file dasbor Anda di cloud.

Ekstrak Gambar dari Dokumen Word menggunakan Node.js

Anda dapat dengan mudah mengekstrak semua gambar dari dokumen Word dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance dari ParseApi
  • Buat instance FileInfo
  • Tetapkan jalur ke file DOCX
  • Buat instance dari ImageOptions
  • Tetapkan FileInfo ke ImageOptions
  • Buat Permintaan Gambar
  • Dapatkan hasil dengan memanggil metode ParseApi.images().

Contoh kode berikut menunjukkan cara mengekstrak gambar dari file DOCX menggunakan REST API.

// inisialisasi api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// contoh file info
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// menentukan pilihan gambar
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// buat permintaan gambar
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// dapatkan gambar
let result = await parseApi.images(request);

// tampilkan jalur unduhan gambar
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Ekstrak Gambar dari Dokumen Word menggunakan Node.js

Ekstrak Gambar dari Dokumen Word menggunakan Node.js

Unduh Gambar yang Diekstrak

Contoh kode di atas akan menyimpan gambar yang diekstraksi di cloud. Anda dapat mengunduh gambar-gambar ini menggunakan contoh kode yang diberikan di bawah ini:

// inisialisasi api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// buat permintaan pengunduhan file
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// Unduh berkas
let response = await fileApi.downloadFile(request);

// simpan file gambar di direktori kerja
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Ekstrak Teks dari Dokumen Word menggunakan Node.js

Anda dapat dengan mudah mengekstrak semua teks dari dokumen Word dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance dari ParseApi
  • Buat instance FileInfo
  • Tetapkan jalur ke file DOCX
  • Buat instance dari TextOptions
  • Tetapkan FileInfo ke TextOptions
  • Tetapkan nomor halaman awal
  • Tentukan FormattedTextOptions
  • Buat Permintaan Teks
  • Dapatkan hasil dengan memanggil metode ParseApi.text().

Contoh kode berikut menunjukkan cara mengekstrak teks dari file DOCX menggunakan REST API.

// inisialisasi api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// contoh file info
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// menentukan pilihan teks
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// membuat permintaan teks
let request = new groupdocs_parser_cloud.TextRequest(options);

// dapatkan teks
let result = await parseApi.text(request);

// menampilkan teks yang diekstraksi
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Ekstrak Teks dari Dokumen Word menggunakan Node.js

Ekstrak Teks dari Dokumen Word menggunakan Node.js

Coba Daring

Silakan coba alat Parsing DOCX online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/docx

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengurai dokumen Word di cloud. Anda juga telah mempelajari cara mengekstrak gambar dan teks dari file DOCX menggunakan REST API di Node.js. Artikel ini juga menjelaskan cara mengunggah file DOCX secara terprogram di cloud dan mengunduh file gambar dari Cloud. Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga