
在 Node.js 中從 PowerPoint PPT/PPTX 中提取文本
在某些情況下,從文檔中提取格式化文本以進行進一步處理,例如文本分析、分類等。在 PDF 和 Word 等其他文件格式中,PowerPoint 演示文稿也用於文本提取。因此,本文將演示如何在 Node.js 中從 PowerPoint PPT/PPTX 中提取文本。您可以輕鬆地從特定幻燈片中解析 PowerPoint PPT/PPTX 演示文稿和文本,或者以編程方式在雲中提取所有文本。
本文將討論以下主題:
- 從 PowerPoint PPT 中提取文本的 Node.js 庫
- 使用 REST API 從 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本
- 在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本
從 PowerPoint PPT 中提取文本的 Node.js 庫
為了解析 PowerPoint 文檔,我將使用 GroupDocs.Parser Cloud API 的 Node.js SDK。它允許您解析來自 50 多種受支持文檔格式 的數據。它還支持在 Node.js 應用程序中解析容器,如 ZIP 檔案、OST 郵件數據文件、電子書、標記、PowerPoint 和 PDF 組合。您可以使用 SDK 通過模板提取文本、圖像和解析數據。它還為雲 API 提供 .NET、Java、PHP、Ruby 和 Python SDK 作為其文檔解析器家族成員。
您可以在控制台中使用以下命令將 GroupDocs.Parser Cloud 安裝到您的 Node.js 應用程序:
npm install groupdocs-parser-cloud
在執行上述步驟之前,請從儀表板獲取您的客戶端 ID 和密碼。獲得 ID 和密碼後,添加如下所示的代碼:
# 從 http://api.groupdocs.cloud 在您的節點應用程序中導入 Node.js SDK
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// 從 https://dashboard.groupdocs.cloud 獲取 clientId 和 clientSecret(需要免費註冊)。
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
使用 REST API 從 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本
您可以按照下面提到的簡單步驟從 PowerPoint 演示文稿中提取文本:
- 上傳 PowerPoint文件到雲端
- 使用 Node.js 從 PowerPoint 演示文稿中提取文本
上傳文件
首先,使用下面給出的代碼示例將 PowerPoint 文檔上傳到雲端:
// 從系統驅動器打開 IOStream 中的文件。
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// 讀取文件
fs.readFile(resourcesFolder, (err, fileStream) => {
// 構建FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// 創建上傳文件請求
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// 上傳文件
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
因此,上傳的 PowerPoint 文件將在雲端儀表板的 文件部分 中可用。
使用 Node.js 從 PowerPoint 演示文稿中提取文本
您可以按照以下步驟輕鬆地以編程方式從 PowerPoint 文件中提取所有文本:
- 首先,創建 ParseApi 的實例。
- 其次,創建 FileInfo 的實例。
- 然後,設置 PowerPoint 文件的路徑。
- 創建 TextOptions 的實例。
- 然後,將 FileInfo 分配給 TextOptions。
- 創建 FormattedTextOptions 的實例。
- 將 formattedTextOptions 模式設置為 PlainText
- 接下來,分配 formattedTextOptions 值
- 現在,使用 TextOptions 創建 TextRequest 的實例。
- 最後,通過使用 TextRequest 調用 ParseApi.text() 方法來獲取結果。
以下代碼示例展示瞭如何在 Node.js 中使用 REST API 從 PowerPoint 文件中提取所有文本:
// 如何使用 REST API 在 Node.js 中從 PowerPoint PPT/PPTX 中提取所有文本
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 創建解析文檔請求
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 顯示結果
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})

使用 Node.js 從 PowerPoint 演示文稿中提取文本
在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本
您可以按照以下步驟以編程方式從 PDF 文件的特定頁面中提取文本:
- 首先,創建 ParseApi 的實例。
- 接下來,創建 FileInfo 的一個實例。
- 然後,設置 PowerPoint PPTX 文件的路徑。
- 創建 TextOptions 的實例。
- 然後,將 FileInfo 分配給 TextOptions。
- 設置 startPageNumber 和 countPagesToExtract 值
- 創建 FormattedTextOptions 的實例。
- 將 formattedTextOptions 模式設置為 PlainText
- 接下來,分配 formattedTextOptions 值.
- 設置起始頁碼和要提取的總頁數。
- 現在,使用 TextOptions 創建 TextRequest 的實例。
- 最後,通過使用 TextRequest 調用 ParseApi.text() 方法來獲取結果。
以下代碼示例顯示瞭如何使用 REST API 在 Node.js 中按頁碼從 PowerPoint PPTX 文件中提取特定文本:
// 如何在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 創建解析文檔請求
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 顯示結果
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})

在 Node.js 中按頁碼範圍從 PowerPoint PPT 中提取文本
在線試用
請嘗試以下使用上述 API 開發的免費在線 PowerPoint 解析工具。
結論
在本文中,您學習瞭如何在 Nodejs 中解析和提取 PowerPoint PPT 中的文本。你已看到:
- 如何使用 REST API 從 Node.js 中的特定幻燈片中提取文本;
- 如何從 Node.js 中的 PowerPoint 演示文稿的所有幻燈片中提取文本;
- 以編程方式將 PowerPoint 文件上傳到雲端;
此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。如有任何歧義,請隨時在論壇上與我們聯繫。
問一個問題
如果您對 Online Text Extractor 有任何疑問或困惑,請通過我們的 論壇 通知我們。
常見問題
如何在 Node.js 中從 PowerPoint 中提取文本?
請點擊[此鏈接](https://blog.groupdocs.cloud/zh-hant/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) 學習 Node.js 代碼片段,了解如何在 Node.js 中從 PPT 文件中提取文本。
如何使用REST API從在線PPT文檔中提取文本?
首先,創建一個 ParseApi 的實例,設置 TextOptions 的值,然後調用 [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) 方法與 TextRequest 在線從 PPT 文件中提取選定的文本。
如何安裝PPT文本提取器免費下載庫?
您可以安裝 PPT 文本提取器 Node.js 庫 以編程方式從 PPT 文件中提取文本。
如何在 Windows 中離線提取 PPT 中的文本?
請訪問此鏈接 下載適用於 Windows 的文本提取軟件。這個文本提取器工具將立即提取窗口中的文本,只需單擊一下。