Phân tích tài liệu Word bằng API REST trong Node.js

Bạn có thể cần trích xuất văn bản hoặc hình ảnh từ tài liệu Word của mình cho nhiều mục đích khác nhau. Bạn có thể dễ dàng phân tích cú pháp tài liệu Word và đọc văn bản theo chương trình trong các ứng dụng Node.js của mình. Là nhà phát triển Node.js, bạn có thể trích xuất tất cả văn bản và hình ảnh từ tệp DOCX trên đám mây theo chương trình. Bài viết này sẽ tập trung vào cách phân tích cú pháp tài liệu Word bằng API REST trong Node.js.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Trình phân tích cú pháp tài liệu API REST và SDK Node.js

Để phân tích cú pháp tài liệu DOCX, tôi sẽ sử dụng API Node.js SDK của GroupDocs.Parser Cloud. Nó cho phép bạn phân tích dữ liệu từ hơn 50 loại tài liệu. Nó cũng hỗ trợ phân tích cú pháp các vùng chứa như kho lưu trữ ZIP, tệp dữ liệu thư OST/PST, sách điện tử, đánh dấu và danh mục đầu tư PDF trong các ứng dụng Node.js của bạn. Bạn có thể trích xuất văn bản, hình ảnh và phân tích cú pháp dữ liệu theo mẫu bằng SDK. Nó cũng cung cấp SDK .NET, Java, PHP, Ruby và Python dưới dạng các thành viên trong họ trình phân tích cú pháp tài liệu cho Cloud API.

Bạn có thể cài đặt GroupDocs.Parser Cloud cho ứng dụng Node.js của mình bằng lệnh sau trong bảng điều khiển:

npm install groupdocs-parser-cloud 

Vui lòng lấy Mã khách hàng và Bí mật của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Phân tích tài liệu Word và trích xuất hình ảnh bằng API REST trong Node.js

Bạn có thể phân tích cú pháp tài liệu Word của mình và trích xuất hình ảnh theo chương trình bằng cách thực hiện theo các bước được đề cập bên dưới:

Tải lên tài liệu

Đầu tiên, tải tài liệu Word (DOCX) lên Đám mây bằng ví dụ mã được cung cấp bên dưới:

// khởi tạo API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// Đọc tài liệu
fs.readFile(resourcesFolder, (err, fileStream) => {
  // tạo yêu cầu tải lên tập tin
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // cập nhật dử liệu
  fileApi.uploadFile(request);
});

Do đó, tệp DOCX đã tải lên sẽ có sẵn trong phần tệp trên trang tổng quan của bạn trên đám mây.

Trích xuất hình ảnh từ tài liệu Word bằng Node.js

Bạn có thể dễ dàng trích xuất tất cả các hình ảnh từ tài liệu Word bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi
  • Tạo một phiên bản của FileInfo
  • Đặt đường dẫn đến tệp DOCX
  • Tạo một thể hiện của ImageOptions
  • Gán FileInfo cho ImageOptions
  • Tạo hình ảnhRequest
  • Nhận kết quả bằng cách gọi phương thức ParseApi.images()

Mẫu mã sau đây cho biết cách trích xuất hình ảnh từ tệp DOCX bằng API REST.

// khởi tạo api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// thông tin tập tin mẫu
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// xác định tùy chọn hình ảnh
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// tạo yêu cầu hình ảnh
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// lấy hình ảnh
let result = await parseApi.images(request);

// hiển thị đường dẫn tải ảnh
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Trích xuất hình ảnh từ tài liệu Word bằng Node.js

Trích xuất hình ảnh từ tài liệu Word bằng Node.js

Tải xuống hình ảnh được trích xuất

Mẫu mã trên sẽ lưu các hình ảnh được trích xuất trên đám mây. Bạn có thể tải xuống những hình ảnh này bằng mẫu mã được cung cấp bên dưới:

// khởi tạo api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// tạo yêu cầu tải tập tin
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// Tải tập tin
let response = await fileApi.downloadFile(request);

// lưu tệp hình ảnh trong thư mục làm việc
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Trích xuất văn bản từ tài liệu Word bằng Node.js

Bạn có thể dễ dàng trích xuất tất cả văn bản từ tài liệu Word bằng cách thực hiện theo các bước được đề cập bên dưới.

  • Tạo một phiên bản của ParseApi
  • Tạo một phiên bản của FileInfo
  • Đặt đường dẫn đến tệp DOCX
  • Tạo một thể hiện của TextOptions
  • Gán FileInfo cho TextOptions
  • Đặt số trang bắt đầu
  • Xác định FormattedTextOptions
  • Tạo văn bảnRequest
  • Nhận kết quả bằng cách gọi phương thức ParseApi.text()

Mẫu mã sau đây cho biết cách trích xuất văn bản từ tệp DOCX bằng API REST.

// khởi tạo api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// thông tin tập tin mẫu
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// xác định các tùy chọn văn bản
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// tạo văn bản yêu cầu
let request = new groupdocs_parser_cloud.TextRequest(options);

// nhận văn bản
let result = await parseApi.text(request);

// hiển thị văn bản trích xuất
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Trích xuất văn bản từ tài liệu Word bằng Node.js

Trích xuất văn bản từ tài liệu Word bằng Node.js

Thử trực tuyến

Vui lòng dùng thử công cụ Phân tích cú pháp DOCX trực tuyến miễn phí sau đây, được phát triển bằng cách sử dụng API ở trên. https://products.groupdocs.app/parser/docx

Phần kết luận

Trong bài viết này, bạn đã học cách phân tích cú pháp tài liệu Word trên đám mây. Bạn cũng đã học cách trích xuất hình ảnh và văn bản từ tệp DOCX bằng API REST trong Node.js. Bài viết này cũng giải thích cách lập trình tải lên tệp DOCX trên đám mây và tải xuống các tệp hình ảnh từ Đám mây. Bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham chiếu API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm