Node.js 中的 PPTX

在 Node.js 中从 PowerPoint PPT/PPTX 中提取文本

在某些情况下,从文档中提取格式化文本以进行进一步处理,例如文本分析、分类等。在 PDF 和 Word 等其他文件格式中,PowerPoint 演示文稿也用于文本提取。因此,本文将演示如何在 Node.js 中从 PowerPoint PPT/PPTX 中提取文本。您可以轻松地从特定幻灯片中解析 PowerPoint PPT/PPTX 演示文稿和文本,或者以编程方式在云中提取所有文本。

本文将讨论以下主题:

从 PowerPoint PPT 中提取文本的 Node.js 库

为了解析 PowerPoint 文档,我将使用 GroupDocs.Parser Cloud API 的 Node.js SDK。它允许您解析来自 50 多种受支持文档格式 的数据。它还支持在 Node.js 应用程序中解析容器,如 ZIP 档案、OST 邮件数据文件、电子书、标记、PowerPoint 和 PDF 组合。您可以使用 SDK 通过模板提取文本、图像和解析数据。它还为云 API 提供 .NET、Java、PHP、Ruby 和 Python SDK 作为其文档解析器家族成员

您可以在控制台中使用以下命令将 GroupDocs.Parser Cloud 安装到您的 Node.js 应用程序:

npm install groupdocs-parser-cloud

在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,添加如下所示的代码:

# 从 http://api.groupdocs.cloud 在您的节点应用程序中导入 Node.js SDK
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// 从 https://dashboard.groupdocs.cloud 获取 clientId 和 clientSecret(需要免费注册)。
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

使用 REST API 从 Node.js 中的 PowerPoint PPT/PPTX 中提取所有文本

您可以按照下面提到的简单步骤从 PowerPoint 演示文稿中提取文本:

上传文件

首先,使用下面给出的代码示例将 PowerPoint 文档上传到云端:

// 从系统驱动器打开 IOStream 中的文件。
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// 读取文件
fs.readFile(resourcesFolder, (err, fileStream) => {
  // 构造FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // 创建上传文件请求
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // 上传文件
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

因此,上传的 PowerPoint 文件将在云端仪表板的 文件部分 中可用。

使用 Node.js 从 PowerPoint 演示文稿中提取文本

您可以按照以下步骤轻松地以编程方式从 PowerPoint 文件中提取所有文本:

  • 首先,创建 ParseApi 的实例。
  • 其次,创建 FileInfo 的实例。
  • 然后,设置 PowerPoint 文件的路径。
  • 创建 TextOptions 的实例。
  • 然后,将 FileInfo 分配给 TextOptions。
  • 创建 FormattedTextOptions 的实例。
  • 将 formattedTextOptions 模式设置为 PlainText
  • 接下来,分配 formattedTextOptions 值
  • 现在,使用 TextOptions 创建 TextRequest 的实例。
  • 最后,通过使用 TextRequest 调用 ParseApi.text() 方法来获取结果。

以下代码示例展示了如何在 Node.js 中使用 REST API 从 PowerPoint 文件中提取所有文本:

// 如何使用 REST API 在 Node.js 中从 PowerPoint PPT/PPTX 中提取所有文本
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // 创建解析文档请求
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // 显示结果
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
如何使用 Node.js 从 PowerPoint 演示文稿中提取文本

使用 Node.js 从 PowerPoint 演示文稿中提取文本

在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本

您可以按照以下步骤以编程方式从 PDF 文件的特定页面中提取文本:

  • 首先,创建 ParseApi 的实例。
  • 接下来,创建 FileInfo 的一个实例。
  • 然后,设置 PowerPoint PPTX 文件的路径。
  • 创建 TextOptions 的实例。
  • 然后,将 FileInfo 分配给 TextOptions。
  • 设置 startPageNumber 和 countPagesToExtract 值
  • 创建 FormattedTextOptions 的实例。
  • 将 formattedTextOptions 模式设置为 PlainText
  • 接下来,分配 formattedTextOptions 值.
  • 设置起始页码和要提取的总页数。
  • 现在,使用 TextOptions 创建 TextRequest 的实例。
  • 最后,通过使用 TextRequest 调用 ParseApi.text() 方法来获取结果。

以下代码示例显示了如何使用 REST API 在 Node.js 中按页码从 PowerPoint PPTX 文件中提取特定文本:

// 如何在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // 创建解析文档请求
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // 显示结果
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
如何在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本

在 Node.js 中按页码范围从 PowerPoint PPT 中提取文本

在线试用

请尝试以下使用上述 API 开发的免费在线 PowerPoint 解析工具

结论

在本文中,您学习了如何在 Nodejs 中解析和提取 PowerPoint PPT 中的文本。你已看到:

  • 如何使用 REST API 从 Node.js 中的特定幻灯片中提取文本;
  • 如何从 Node.js 中的 PowerPoint 演示文稿的所有幻灯片中提取文本;
  • 以编程方式将 PowerPoint 文件上传到云端;

此外,您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。如有任何歧义,请随时在论坛上与我们联系。

问一个问题

如果您对 Online Text Extractor 有任何疑问或困惑,请通过我们的 论坛 通知我们。

常见问题

如何在 Node.js 中从 PowerPoint 中提取文本?

请点击[此链接](https://blog.groupdocs.cloud/zh/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API) 学习 Node.js 代码片段,了解如何在 Node.js 中从 PPT 文件中提取文本。

如何使用REST API从在线PPT文档中提取文本?

首先,创建一个 ParseApi 的实例,设置 TextOptions 的值,然后调用 [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) 方法与 TextRequest 在线从 PPT 文件中提取选定的文本。

如何安装PPT文本提取器免费下载库?

您可以安装 PPT 文本提取器 Node.js 库 以编程方式从 PPT 文件中提取文本。

如何在 Windows 中离线提取 PPT 中的文本?

请访问此链接 下载适用于 Windows 的文本提取软件。这个文本提取器工具将立即提取窗口中的文本,只需单击一下。

也可以看看