在某些情况下,从文档中提取格式化文本以进行进一步处理,例如文本分析、分类等。在 PDF 和 Word 等其他文件格式中,PowerPoint 演示文稿也用于文本提取。因此,本文将演示如何在 Node.js 中从 PowerPoint PPT/PPTX 中提取文本。您可以轻松地从特定幻灯片中解析 PowerPoint PPT/PPTX 演示文稿和文本,或者以编程方式在云中提取所有文本。
本文将讨论以下主题:
- 从 PowerPoint PPT 中提取文本的 Node.js 库
- 使用 REST API 从 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本
- 在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本
从 PowerPoint PPT 中提取文本的 Node.js 库
为了解析 PowerPoint 文档,我将使用 GroupDocs.Parser Cloud API 的 Node.js SDK。它允许您解析来自 50 多种受支持文档格式 的数据。它还支持在 Node.js 应用程序中解析容器,如 ZIP 档案、OST 邮件数据文件、电子书、标记、PowerPoint 和 PDF 组合。您可以使用 SDK 通过模板提取文本、图像和解析数据。它还为云 API 提供 .NET、Java、PHP、Ruby 和 Python SDK 作为其文档解析器家族成员。
您可以在控制台中使用以下命令将 GroupDocs.Parser Cloud 安装到您的 Node.js 应用程序:
npm install groupdocs-parser-cloud
在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,添加如下所示的代码:
# 从 http://api.groupdocs.cloud 在您的节点应用程序中导入 Node.js SDK
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// 从 https://dashboard.groupdocs.cloud 获取 clientId 和 clientSecret(需要免费注册)。
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
使用 REST API 从 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本
您可以按照下面提到的简单步骤从 PowerPoint 演示文稿中提取文本:
- 上传 PowerPoint文件到云端
- 使用 Node.js 从 PowerPoint 演示文稿中提取文本
上传文件
首先,使用下面给出的代码示例将 PowerPoint 文档上传到云端:
// 从系统驱动器打开 IOStream 中的文件。
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// 读取文件
fs.readFile(resourcesFolder, (err, fileStream) => {
// 构造FileApi
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// 创建上传文件请求
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// 上传文件
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
因此,上传的 PowerPoint 文件将在云端仪表板的 文件部分 中可用。
使用 Node.js 从 PowerPoint 演示文稿中提取文本
您可以按照以下步骤轻松地以编程方式从 PowerPoint 文件中提取所有文本:
- 首先,创建 ParseApi 的实例。
- 其次,创建 FileInfo 的实例。
- 然后,设置 PowerPoint 文件的路径。
- 创建 TextOptions 的实例。
- 然后,将 FileInfo 分配给 TextOptions。
- 创建 FormattedTextOptions 的实例。
- 将 formattedTextOptions 模式设置为 PlainText
- 接下来,分配 formattedTextOptions 值
- 现在,使用 TextOptions 创建 TextRequest 的实例。
- 最后,通过使用 TextRequest 调用 ParseApi.text() 方法来获取结果。
以下代码示例展示了如何在 Node.js 中使用 REST API 从 PowerPoint 文件中提取所有文本:
// 如何使用 REST API 在 Node.js 中从 PowerPoint PPT/PPTX 中提取所有文本
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 创建解析文档请求
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 显示结果
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本
您可以按照以下步骤以编程方式从 PDF 文件的特定页面中提取文本:
- 首先,创建 ParseApi 的实例。
- 接下来,创建 FileInfo 的一个实例。
- 然后,设置 PowerPoint PPTX 文件的路径。
- 创建 TextOptions 的实例。
- 然后,将 FileInfo 分配给 TextOptions。
- 设置 startPageNumber 和 countPagesToExtract 值
- 创建 FormattedTextOptions 的实例。
- 将 formattedTextOptions 模式设置为 PlainText
- 接下来,分配 formattedTextOptions 值.
- 设置起始页码和要提取的总页数。
- 现在,使用 TextOptions 创建 TextRequest 的实例。
- 最后,通过使用 TextRequest 调用 ParseApi.text() 方法来获取结果。
以下代码示例显示了如何使用 REST API 在 Node.js 中按页码从 PowerPoint PPTX 文件中提取特定文本:
// 如何在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 创建解析文档请求
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 显示结果
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
在线试用
请尝试以下使用上述 API 开发的免费在线 PowerPoint 解析工具。
结论
在本文中,您学习了如何在 Nodejs 中解析和提取 PowerPoint PPT 中的文本。你已看到:
- 如何使用 REST API 从 Node.js 中的特定幻灯片中提取文本;
- 如何从 Node.js 中的 PowerPoint 演示文稿的所有幻灯片中提取文本;
- 以编程方式将 PowerPoint 文件上传到云端;
此外,您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。如有任何歧义,请随时在论坛上与我们联系。
问一个问题
如果您对 Online Text Extractor 有任何疑问或困惑,请通过我们的 论坛 通知我们。
常见问题
如何在 Node.js 中从 PowerPoint 中提取文本?
请点击[此链接](https://blog.groupdocs.cloud/zh/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) 学习 Node.js 代码片段,了解如何在 Node.js 中从 PPT 文件中提取文本。
如何使用REST API从在线PPT文档中提取文本?
首先,创建一个 ParseApi 的实例,设置 TextOptions 的值,然后调用 [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) 方法与 TextRequest 在线从 PPT 文件中提取选定的文本。
如何安装PPT文本提取器免费下载库?
您可以安装 PPT 文本提取器 Node.js 库 以编程方式从 PPT 文件中提取文本。
如何在 Windows 中离线提取 PPT 中的文本?
请访问此链接 下载适用于 Windows 的文本提取软件。这个文本提取器工具将立即提取窗口中的文本,只需单击一下。