PPTX trong Node.js

Trích xuất văn bản từ PowerPoint PPT/PPTX trong Node.js

Trong một số trường hợp nhất định, văn bản đã định dạng được trích xuất khỏi tài liệu để xử lý thêm, chẳng hạn như phân tích văn bản, phân loại, v.v. Trong số các định dạng tệp khác như PDF và Word, PowerPoint Bản trình bày cũng được sử dụng trong trích xuất văn bản. Do đó, bài viết này trình bày cách trích xuất văn bản từ PowerPoint PPT/PPTX trong Node.js. Bạn có thể dễ dàng phân tích cú pháp bản trình bày PowerPoint PPT/PPTX và văn bản từ một trang chiếu cụ thể hoặc trích xuất tất cả văn bản theo chương trình trên đám mây.

Các chủ đề sau sẽ được thảo luận trong bài viết này:

Thư viện Node.js để trích xuất văn bản từ PowerPoint PPT

Để phân tích cú pháp tài liệu PowerPoint, tôi sẽ sử dụng Node.js SDK của GroupDocs.Parser Cloud API. Nó cho phép bạn phân tích cú pháp dữ liệu từ hơn 50 loại định dạng tài liệu được hỗ trợ. Nó cũng hỗ trợ phân tích cú pháp các vùng chứa như tệp lưu trữ ZIP, tệp dữ liệu thư OST, sách điện tử, đánh dấu, danh mục PowerPoint và PDF trong các ứng dụng Node.js của bạn. Bạn có thể trích xuất văn bản, hình ảnh và phân tích cú pháp dữ liệu theo mẫu bằng SDK. Nó cũng cung cấp SDK .NET, Java, PHP, Ruby và Python dưới dạng các thành viên họ trình phân tích cú pháp tài liệu cho Cloud API.

Bạn có thể cài đặt GroupDocs.Parser Cloud cho ứng dụng Node.js của mình bằng lệnh sau trong bảng điều khiển:

npm install groupdocs-parser-cloud

Vui lòng lấy Client ID và Secret của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:

# Nhập SDK Node.js trong ứng dụng nút của bạn từ http://api.groupdocs.cloud
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// lấy clientId và clientSecret từ https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

Trích xuất tất cả văn bản từ PowerPoint PPT/PPTX trong Node.js bằng API REST

Bạn có thể trích xuất văn bản từ Bản trình bày PowerPoint bằng cách làm theo các bước đơn giản dưới đây:

Tải tệp lên

Đầu tiên, tải tài liệu PowerPoint lên Đám mây bằng ví dụ mã được cung cấp bên dưới:

// mở tệp trong IOStream từ ổ đĩa hệ thống của bạn.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// Đọc tài liệu
fs.readFile(resourcesFolder, (err, fileStream) => {
  // xây dựng FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // tạo yêu cầu tệp tải lên
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // cập nhật dử liệu
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

Do đó, tệp PowerPoint đã tải lên sẽ có sẵn trong phần tệp của trang tổng quan của bạn trên đám mây.

Trích xuất văn bản từ bản trình bày PowerPoint bằng Node.js

Bạn có thể dễ dàng trích xuất tất cả văn bản từ tệp PowerPoint theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Đầu tiên, tạo một phiên bản của ParseApi.
  • Thứ hai, tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PowerPoint.
  • Tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo cho TextOptions.
  • Tạo một phiên bản của FormattedTextOptions.
  • Đặt chế độ formattedTextOptions thành PlainText
  • Tiếp theo, gán giá trị formattedTextOptions
  • Bây giờ, hãy tạo một thể hiện của TextRequest với TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest.

Mẫu mã sau đây cho biết cách trích xuất tất cả văn bản từ tệp PowerPoint bằng API REST trong Node.js:

// Cách trích xuất tất cả văn bản từ PowerPoint PPT/PPTX trong Node.js bằng API REST
const parse = async() => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Tạo yêu cầu tài liệu phân tích cú pháp
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Hiển thị kết quả
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Cách trích xuất văn bản từ bản trình bày PowerPoint bằng Node.js

Trích xuất văn bản từ bản trình bày PowerPoint bằng Node.js

Trích xuất văn bản từ PowerPoint PPT theo Phạm vi số trang trong Node.js

Bạn có thể trích xuất văn bản từ các trang cụ thể của tệp PDF theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Đầu tiên, tạo một phiên bản của ParseApi.
  • Tiếp theo, tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PowerPoint PPTX.
  • Tạo một thể hiện của TextOptions.
  • Sau đó, gán FileInfo cho TextOptions.
  • Đặt giá trị startPageNumber và countPagesToExtract
  • Tạo một phiên bản của FormattedTextOptions.
  • Đặt chế độ formattedTextOptions thành PlainText
  • Tiếp theo, gán giá trị formattedTextOptions.
  • Đặt số trang bắt đầu và tổng số trang để giải nén.
  • Bây giờ, hãy tạo một thể hiện của TextRequest với TextOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() với TextRequest.

Mẫu mã sau đây cho biết cách trích xuất văn bản cụ thể từ tệp PowerPoint PPTX theo số trang trong Node.js bằng API REST:

// Cách trích xuất văn bản từ PowerPoint PPT theo dãy số trang trong Node.js
const parse = async() => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Tạo yêu cầu tài liệu phân tích cú pháp
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Hiển thị kết quả
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Cách trích xuất văn bản từ PowerPoint PPT theo dãy số trang trong Node.js

Trích xuất văn bản từ PowerPoint PPT theo Phạm vi số trang trong Node.js

Thử trực tuyến

Vui lòng thử công cụ Phân tích cú pháp PowerPoint trực tuyến miễn phí sau đây, được phát triển bằng API ở trên.

Phần kết luận

Trong bài viết này, bạn đã học cách phân tích cú pháp và trích xuất văn bản từ PowerPoint PPT trong Nodejs. Bạn đã thấy:

  • cách trích xuất văn bản từ một slide cụ thể trong Node.js bằng API REST;
  • cách trích xuất văn bản từ tất cả các trang trình bày của Bản trình bày PowerPoint trong Node.js;
  • tải tệp PowerPoint lên đám mây theo chương trình;

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn.

Đặt một câu hỏi

Trong trường hợp bạn có bất kỳ thắc mắc hoặc nhầm lẫn nào về Trình trích xuất văn bản trực tuyến, hãy thông báo cho chúng tôi qua diễn đàn của chúng tôi.

câu hỏi thường gặp

Làm cách nào để trích xuất văn bản từ PowerPoint trong Node.js?

Vui lòng theo [liên kết này](https://blog.groupdocs.cloud/vi/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) để tìm hiểu đoạn mã Node.js về cách trích xuất văn bản từ tệp PPT trong Node.js.

Làm cách nào để trích xuất văn bản từ tài liệu PPT trực tuyến bằng API REST?

Đầu tiên, tạo một phiên bản của ParseApi, đặt các giá trị của TextOptions và bây giờ gọi [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) với TextRequest để trích xuất văn bản đã chọn từ tệp PPT trực tuyến.

Làm cách nào để cài đặt thư viện tải xuống miễn phí trình trích xuất văn bản PPT?

Bạn có thể cài đặt trình trích xuất văn bản PPT thư viện Node.js để trích xuất văn bản từ tệp PPT theo chương trình.

Làm cách nào để trích xuất văn bản từ PPT ngoại tuyến trong Windows?

Vui lòng truy cập liên kết này để tải xuống phần mềm trích xuất văn bản cho Windows. Công cụ trích xuất văn bản này sẽ trích xuất văn bản trong cửa sổ ngay lập tức chỉ bằng một cú nhấp chuột.

Xem thêm