Ekstrak Teks dari PDF menggunakan REST API di Node.js

Anda dapat dengan mudah mengurai dokumen PDF Anda dan mengekstrak semua teks secara terprogram di cloud. Pada artikel ini, Anda akan mempelajari cara mengekstrak teks dari dokumen PDF menggunakan REST API di Node.js.

Topik-topik berikut akan dibahas dalam artikel ini:

PDF Parser REST API dan Node.js SDK untuk Mengekstrak Teks

Untuk mem-parsing dokumen PDF, saya akan menggunakan Node.js SDK dari GroupDocs.Parser Cloud API. Ini memungkinkan Anda mengurai data dari lebih dari 50 jenis format dokumen yang didukung. Ini juga mendukung penguraian wadah seperti ZIP arsip, OST file data email, e-books, markup, dan portofolio PDF di aplikasi Node.js Anda. Anda dapat mengekstrak teks, gambar, dan mengurai data dengan template menggunakan SDK. Ini juga menyediakan .NET, Java, PHP, Ruby, dan Python SDK sebagai anggota keluarga parser dokumen untuk Cloud API.

Anda dapat menginstal GroupDocs.Parser Cloud ke aplikasi Node.js Anda menggunakan perintah berikut di konsol:

npm install groupdocs-parser-cloud

Harap dapatkan ID dan Rahasia Klien Anda dari dasbor sebelum mengikuti langkah-langkah yang disebutkan. Setelah Anda memiliki ID dan rahasia Anda, tambahkan kode seperti yang ditunjukkan di bawah ini:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Ekstrak Teks dari PDF menggunakan REST API di Node.js

Anda dapat mengekstrak teks dari dokumen PDF dengan mengikuti langkah-langkah sederhana yang disebutkan di bawah ini:

Unggah Dokumen

Pertama, unggah dokumen PDF ke Cloud menggunakan contoh kode di bawah ini:

// Membangun FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Buat permintaan unggah file
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Unggah data
  fileApi.uploadFile(request);
});

Hasilnya, file PDF yang diunggah akan tersedia di files section dasbor Anda di cloud.

Ekstrak Teks dari Dokumen PDF menggunakan Node.js

Anda dapat dengan mudah mengekstrak semua teks dari dokumen PDF secara terprogram dengan mengikuti langkah-langkah di bawah ini:

  • Buat instance dari ParseApi.
  • Buat instance FileInfo.
  • Kemudian, atur jalur ke file PDF.
  • Buat instance dari TextOptions.
  • Kemudian, tetapkan FileInfo ke TextOptions.
  • Sekarang, buat instance dari TextRequest dengan TextOptions.
  • Terakhir, dapatkan hasil dengan memanggil metode ParseApi.text() dengan TextRequest.

Contoh kode berikut menunjukkan cara mengekstrak semua teks dari dokumen PDF menggunakan REST API di Node.js.

// inisialisasi api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// berkas masukan
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Tentukan pilihan teks
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Buat permintaan teks
let request = new groupdocs_parser_cloud.TextRequest(options);

// Ekstrak teks
let result = await parseApi.text(request);
console.log(result.text);
Ekstrak Teks dari PDF menggunakan REST API di Node.js

Ekstrak Teks dari PDF menggunakan REST API di Node.js

Dapatkan Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Node.js

Anda dapat mengekstrak teks dari halaman tertentu dari file PDF secara terprogram dengan mengikuti langkah-langkah di bawah ini:

  • Buat instance dari ParseApi.
  • Buat instance FileInfo.
  • Kemudian, atur jalur ke file PDF.
  • Buat instance dari TextOptions.
  • Kemudian, tetapkan FileInfo ke TextOptions.
  • Tetapkan nomor halaman awal dan jumlah total halaman yang akan diekstrak.
  • Sekarang, buat instance dari TextRequest dengan TextOptions.
  • Terakhir, dapatkan hasil dengan memanggil metode ParseApi.text() dengan TextRequest.

Contoh kode berikut menunjukkan cara mengekstrak teks menurut nomor halaman dari dokumen PDF menggunakan REST API.

// inisialisasi api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Jalur file masukan
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Tentukan pilihan teks
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Buat permintaan teks
let request = new groupdocs_parser_cloud.TextRequest(options);

// Ekstrak teks
let result = await parseApi.text(request);

// Tunjukkan hasil
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Dapatkan Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Node.js

Dapatkan Teks dengan Nomor Halaman dari Dokumen PDF menggunakan Node.js

Ekstrak Teks dari Dokumen yang Dilampirkan dengan PDF menggunakan Node.js

Anda dapat mengekstrak teks dari dokumen di dalam wadah, tersedia sebagai lampiran dalam file PDF secara terprogram, dengan mengikuti langkah-langkah yang disebutkan di bawah ini.

  • Buat instance dari ParseApi.
  • Buat instance FileInfo.
  • Kemudian, atur jalur ke file PDF.
  • Secara opsional, berikan kata sandi file.
  • Sekarang, buat sebuah instance dari ContainerItemInfo
  • Kemudian, atur jalur relatif untuk file terlampir
  • Buat instance dari TextOptions.
  • Kemudian, tetapkan FileInfo dan ContainerItemInfo ke TextOptions.
  • Sekarang, buat instance dari TextRequest dengan TextOptions
  • Terakhir, dapatkan hasil dengan memanggil metode ParseApi.text() dengan TextRequest

Contoh kode berikut menunjukkan cara mengekstrak teks dari dokumen di dalam dokumen PDF menggunakan REST API.

// inisialisasi api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// berkas masukan
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Item penampung masukan
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Tentukan pilihan teks
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Buat permintaan teks
let request = new groupdocs_parser_cloud.TextRequest(options);

// Ekstrak teks
let result = await parseApi.text(request);
console.log(result.text);
Ekstrak Teks dari Dokumen yang Dilampirkan dengan PDF menggunakan Node.js

Ekstrak Teks dari Dokumen yang Dilampirkan dengan PDF menggunakan Node.js

Coba Daring

Silakan coba alat Parsing PDF online gratis berikut, yang dikembangkan menggunakan API di atas. https://products.groupdocs.app/parser/pdf

Kesimpulan

Pada artikel ini, Anda telah mempelajari cara mengurai dokumen PDF di cloud. Selain itu, Anda telah melihat cara mengekstrak teks berdasarkan nomor halaman dan dari item penampung file PDF menggunakan REST API di Node.js. Artikel ini juga menjelaskan cara mengunggah file PDF ke cloud secara terprogram. Selain itu, Anda dapat mempelajari lebih lanjut tentang GroupDocs.Parser Cloud API menggunakan dokumentasi. Kami juga menyediakan bagian Referensi API yang memungkinkan Anda memvisualisasikan dan berinteraksi dengan API kami secara langsung melalui browser. Jika ada ambiguitas, jangan ragu untuk menghubungi kami di forum.

Lihat juga