Node.js 中的 PPTX

在 Node.js 中從 PowerPoint PPT/PPTX 中提取文本

在某些情況下,從文檔中提取格式化文本以進行進一步處理,例如文本分析、分類等。在 PDF 和 Word 等其他文件格式中,PowerPoint 演示文稿也用於文本提取。因此,本文將演示如何在 Node.js 中從 PowerPoint PPT/PPTX 中提取文本。您可以輕鬆地從特定幻燈片中解析 PowerPoint PPT/PPTX 演示文稿和文本,或者以編程方式在雲中提取所有文本。

本文將討論以下主題:

從 PowerPoint PPT 中提取文本的 Node.js 庫

為了解析 PowerPoint 文檔,我將使用 GroupDocs.Parser Cloud API 的 Node.js SDK。它允許您解析來自 50 多種受支持文檔格式 的數據。它還支持在 Node.js 應用程序中解析容器,如 ZIP 檔案、OST 郵件數據文件、電子書、標記、PowerPoint 和 PDF 組合。您可以使用 SDK 通過模板提取文本、圖像和解析數據。它還為雲 API 提供 .NET、Java、PHP、Ruby 和 Python SDK 作為其文檔解析器家族成員

您可以在控制台中使用以下命令將 GroupDocs.Parser Cloud 安裝到您的 Node.js 應用程序:

npm install groupdocs-parser-cloud

在執行上述步驟之前,請從儀表板獲取您的客戶端 ID 和密碼。獲得 ID 和密碼後,添加如下所示的代碼:

# 從 http://api.groupdocs.cloud 在您的節點應用程序中導入 Node.js SDK
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// 從 https://dashboard.groupdocs.cloud 獲取 clientId 和 clientSecret(需要免費註冊)。
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

使用 REST API 從 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本

您可以按照下面提到的簡單步驟從 PowerPoint 演示文稿中提取文本:

上傳文件

首先,使用下面給出的代碼示例將 PowerPoint 文檔上傳到雲端:

// 從系統驅動器打開 IOStream 中的文件。
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// 讀取文件
fs.readFile(resourcesFolder, (err, fileStream) => {
  // 構建FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // 創建上傳文件請求
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // 上傳文件
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

因此,上傳的 PowerPoint 文件將在雲端儀表板的 文件部分 中可用。

使用 Node.js 從 PowerPoint 演示文稿中提取文本

您可以按照以下步驟輕鬆地以編程方式從 PowerPoint 文件中提取所有文本:

  • 首先,創建 ParseApi 的實例。
  • 其次,創建 FileInfo 的實例。
  • 然後,設置 PowerPoint 文件的路徑。
  • 創建 TextOptions 的實例。
  • 然後,將 FileInfo 分配給 TextOptions。
  • 創建 FormattedTextOptions 的實例。
  • 將 formattedTextOptions 模式設置為 PlainText
  • 接下來,分配 formattedTextOptions 值
  • 現在,使用 TextOptions 創建 TextRequest 的實例。
  • 最後,通過使用 TextRequest 調用 ParseApi.text() 方法來獲取結果。

以下代碼示例展示瞭如何在 Node.js 中使用 REST API 從 PowerPoint 文件中提取所有文本:

// 如何使用 REST API 在 Node.js 中從 PowerPoint PPT/PPTX 中提取所有文本
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // 創建解析文檔請求
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // 顯示結果
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
如何使用 Node.js 從 PowerPoint 演示文稿中提取文本

使用 Node.js 從 PowerPoint 演示文稿中提取文本

在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本

您可以按照以下步驟以編程方式從 PDF 文件的特定頁面中提取文本:

  • 首先,創建 ParseApi 的實例。
  • 接下來,創建 FileInfo 的一個實例。
  • 然後,設置 PowerPoint PPTX 文件的路徑。
  • 創建 TextOptions 的實例。
  • 然後,將 FileInfo 分配給 TextOptions。
  • 設置 startPageNumber 和 countPagesToExtract 值
  • 創建 FormattedTextOptions 的實例。
  • 將 formattedTextOptions 模式設置為 PlainText
  • 接下來,分配 formattedTextOptions 值.
  • 設置起始頁碼和要提取的總頁數。
  • 現在,使用 TextOptions 創建 TextRequest 的實例。
  • 最後,通過使用 TextRequest 調用 ParseApi.text() 方法來獲取結果。

以下代碼示例顯示瞭如何使用 REST API 在 Node.js 中按頁碼從 PowerPoint PPTX 文件中提取特定文本:

// 如何在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // 創建解析文檔請求
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // 顯示結果
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
如何在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本

在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本

在線試用

請嘗試以下使用上述 API 開發的免費在線 PowerPoint 解析工具

結論

在本文中,您學習瞭如何在 Nodejs 中解析和提取 PowerPoint PPT 中的文本。你已看到:

  • 如何使用 REST API 從 Node.js 中的特定幻燈片中提取文本;
  • 如何從 Node.js 中的 PowerPoint 演示文稿的所有幻燈片中提取文本;
  • 以編程方式將 PowerPoint 文件上傳到雲端;

此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。如有任何歧義,請隨時在論壇上與我們聯繫。

問一個問題

如果您對 Online Text Extractor 有任何疑問或困惑,請通過我們的 論壇 通知我們。

常見問題

如何在 Node.js 中從 PowerPoint 中提取文本?

請點擊[此鏈接](https://blog.groupdocs.cloud/zh-hant/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) 學習 Node.js 代碼片段,了解如何在 Node.js 中從 PPT 文件中提取文本。

如何使用REST API從在線PPT文檔中提取文本?

首先,創建一個 ParseApi 的實例,設置 TextOptions 的值,然後調用 [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) 方法與 TextRequest 在線從 PPT 文件中提取選定的文本。

如何安裝PPT文本提取器免費下載庫?

您可以安裝 PPT 文本提取器 Node.js 庫 以編程方式從 PPT 文件中提取文本。

如何在 Windows 中離線提取 PPT 中的文本?

請訪問此鏈接 下載適用於 Windows 的文本提取軟件。這個文本提取器工具將立即提取窗口中的文本,只需單擊一下。

也可以看看