Trích xuất văn bản từ PDF bằng API REST trong Node.js

Bạn có thể dễ dàng phân tích cú pháp các tài liệu PDF của mình và trích xuất tất cả văn bản theo chương trình trên đám mây. Trong bài viết này, bạn sẽ tìm hiểu cách trích xuất văn bản từ tài liệu PDF bằng API REST trong Node.js.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Trình phân tích cú pháp PDF API REST và SDK Node.js để trích xuất văn bản

Để phân tích cú pháp tài liệu PDF, tôi sẽ sử dụng API Node.js SDK của GroupDocs.Parser Cloud. Nó cho phép bạn phân tích cú pháp dữ liệu từ hơn 50 loại định dạng tài liệu được hỗ trợ. Nó cũng hỗ trợ phân tích cú pháp các vùng chứa như tệp lưu trữ ZIP, tệp dữ liệu thư OST, sách điện tử, đánh dấu và danh mục đầu tư PDF trong ứng dụng Node.js của bạn. Bạn có thể trích xuất văn bản, hình ảnh và phân tích cú pháp dữ liệu theo mẫu bằng SDK. Nó cũng cung cấp SDK .NET, Java, PHP, Ruby và Python dưới dạng các thành viên họ trình phân tích cú pháp tài liệu cho Cloud API.

Bạn có thể cài đặt GroupDocs.Parser Cloud cho ứng dụng Node.js của mình bằng lệnh sau trong bảng điều khiển:

npm install groupdocs-parser-cloud

Vui lòng lấy Client ID và Secret của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Trích xuất văn bản từ PDF bằng API REST trong Node.js

Bạn có thể trích xuất văn bản từ tài liệu PDF bằng cách thực hiện theo các bước đơn giản dưới đây:

Tải lên tài liệu

Đầu tiên, tải tài liệu PDF lên Đám mây bằng ví dụ mã được cung cấp bên dưới:

// Xây dựng tệpApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Tạo yêu cầu tải tệp lên
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Cập nhật dử liệu
  fileApi.uploadFile(request);
});

Do đó, tệp PDF đã tải lên sẽ có sẵn trong phần tệp trên trang tổng quan của bạn trên đám mây.

Trích xuất văn bản từ tài liệu PDF bằng Node.js

Bạn có thể dễ dàng trích xuất tất cả văn bản từ tài liệu PDF theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Tạo một phiên bản của ParseApi.
  • Tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PDF.
  • Tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo cho TextOptions.
  • Bây giờ, hãy tạo một thể hiện của TextRequest với TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest.

Mẫu mã sau đây cho biết cách trích xuất tất cả văn bản từ tài liệu PDF bằng API REST trong Node.js.

// khởi tạo api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// tập tin đầu vào
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Xác định các tùy chọn văn bản
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Tạo văn bản yêu cầu
let request = new groupdocs_parser_cloud.TextRequest(options);

// Trích xuất văn bản
let result = await parseApi.text(request);
console.log(result.text);
Trích xuất văn bản từ PDF bằng API REST trong Node.js

Trích xuất văn bản từ PDF bằng API REST trong Node.js

Nhận văn bản theo số trang từ tài liệu PDF bằng Node.js

Bạn có thể trích xuất văn bản từ các trang cụ thể của tệp PDF theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Tạo một phiên bản của ParseApi.
  • Tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PDF.
  • Tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo cho TextOptions.
  • Đặt số trang bắt đầu và tổng số trang để trích xuất.
  • Bây giờ, hãy tạo một thể hiện của TextRequest với TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest.

Mẫu mã sau đây cho biết cách trích xuất văn bản theo số trang từ tài liệu PDF bằng API REST.

// khởi tạo api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Đường dẫn tệp đầu vào
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Xác định các tùy chọn văn bản
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Tạo văn bản yêu cầu
let request = new groupdocs_parser_cloud.TextRequest(options);

// Trích xuất văn bản
let result = await parseApi.text(request);

// Hiển thị kết quả
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Nhận văn bản theo số trang từ tài liệu PDF bằng Node.js

Nhận văn bản theo số trang từ tài liệu PDF bằng Node.js

Trích xuất văn bản từ tài liệu đính kèm PDF bằng Node.js

Bạn có thể trích xuất văn bản từ tài liệu bên trong vùng chứa, có sẵn dưới dạng tệp đính kèm trong tệp PDF theo chương trình, bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi.
  • Tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PDF.
  • Tùy chọn, cung cấp mật khẩu tập tin.
  • Bây giờ, hãy tạo một phiên bản của ContainerItemInfo
  • Sau đó, đặt đường dẫn tương đối cho tệp đính kèm
  • Tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo và ContainerItemInfo cho TextOptions.
  • Bây giờ, tạo một thể hiện của TextRequest với TextOptions
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest

Mẫu mã sau đây cho biết cách trích xuất văn bản từ tài liệu bên trong tài liệu PDF bằng API REST.

// khởi tạo api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// tập tin đầu vào
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Mục vùng chứa đầu vào
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Xác định các tùy chọn văn bản
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Tạo văn bản yêu cầu
let request = new groupdocs_parser_cloud.TextRequest(options);

// Trích xuất văn bản
let result = await parseApi.text(request);
console.log(result.text);
Trích xuất văn bản từ tài liệu đính kèm PDF bằng Node.js

Trích xuất văn bản từ tài liệu đính kèm PDF bằng Node.js

Thử trực tuyến

Vui lòng dùng thử công cụ Phân tích cú pháp PDF trực tuyến miễn phí sau đây, được phát triển bằng cách sử dụng API ở trên. https://products.groupdocs.app/parser/pdf

Phần kết luận

Trong bài viết này, bạn đã học cách phân tích cú pháp tài liệu PDF trên đám mây. Ngoài ra, bạn đã biết cách trích xuất văn bản theo số trang và từ các mục chứa của tệp PDF bằng API REST trong Node.js. Bài viết này cũng giải thích cách tải tệp PDF lên đám mây theo chương trình. Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm