有时,PowerPoint 演示文稿 (PPTX, PPT) 包含重要的文本信息,例如标题、要点和描述,您可能需要分析或重用这些信息。本文演示了如何使用 .NET REST API 以编程方式从 PowerPoint 幻灯片 (PPT 或 PPTX) 中提取文本,而不是手动复制文本。

为什么要从 PowerPoint 中提取文本?

从 PowerPoint 幻灯片中提取文本在您想要时非常有用:

  • Retrieve content or notes from presentation slides for documentation.
  • 在知识系统中索引和搜索幻灯片内容。
  • 进行内容分析或文本挖掘。
  • 自动化批量提取 PowerPoint 文本以便归档或报告。

通过使用 GroupDocs.Parser Cloud,您可以轻松地安全地从 PowerPoint 演示文稿中提取文本内容,而无需在其系统上安装 PowerPoint。

PowerPoint 文本提取 API

GroupDocs.Parser Cloud SDK for .NET 是一个强大的 REST API,旨在从多种文档格式中提取文本、元数据和结构化数据,包括 PowerPoint, Word、Excel 和 PDF。

前提条件

在开始之前,请确保您已:

  • 一个 GroupDocs Cloud account 获取您的客户端 ID 和客户端秘密。
  • 在您的系统上安装 .NET 6.0 或更高版本。
  • Visual Studio 或其他兼容的 IDE。

安装 SDK

通过 NuGet 安装包:

NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

在 C# .NET 中从 PPTX 中提取文本

按照以下步骤以编程方式从 PowerPoint 演示文稿中提取文本。

步骤 1 – 初始化 API

var configuration = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(configuration);

步骤 2 – 设置文件信息

var fileInfo = new FileInfo { FilePath = "presentation.pptx" };
var options = new ParseOptions { FileInfo = fileInfo };
var request = new ParseRequest(options);

步骤 3 – 从幻灯片中提取文本

var response = parserApi.Parse(request);
Console.WriteLine("Extracted Text: ");
Console.WriteLine(response.Text);
/ For further examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 加载输入的 PowerPoint 文档
using (var fileStream = OpenRead("input.pptx"))
{
    // 将输入的PPT上传到云存储
    var uploadRequest = new Requests.UploadFileRequest("input.pptx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.pptx" }
};

var request = new TextRequest(options);
// 从PowerPoint演示文稿中提取文本
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

💡 您可以通过在 ParseOptions 参数中定义幻灯片编号来修改请求,以仅提取选定幻灯片中的文本。

使用 cURL 提取 PowerPoint 文本

如果您更喜欢使用直接的 REST API 调用,请使用以下 cURL 命令从 PowerPoint 文件中提取文本,而无需编写代码。

步骤 1 – 获取访问令牌

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 - 从 PowerPoint 中提取文本

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"slides.pptx\", \"StorageName\": \"internal\" } }"

{ACCESSTOKEN} 替换为上述获得的令牌, 并在 FilePath 下指定您的 PowerPoint 文件名。

尝试在线 PowerPoint 文本提取器

您还可以使用我们的免费 Online PowerPoint Text Extractor 来测试 API 功能,而无需编写代码。上传您的 PowerPoint 文件,立即下载提取的文本内容,格式为纯文本。

从在线 PowerPoint 中提取文本

使用 GroupDocs.Parser Cloud 从 PowerPoint 在线提取文本。

结论

在本教程中,您学习了如何使用 GroupDocs.Parser Cloud SDK for .NET 从 PowerPoint 演示文稿中提取文本。这种方法允许开发人员自动化 PowerPoint 文本提取,非常适合构建内容分析、索引或搜索解决方案。

关键优势:

  • 轻松提取 PPT 和 PPTX 幻灯片中的文本。
  • 无需安装 PowerPoint。
  • 完全基于云的,具有 REST API 集成。
  • 导出干净、结构化的文本数据以便进一步处理。

常见问题 – FAQs

  1. 我可以从 PPT 和 PPTX 文件中提取文本吗? 是的。该 API 支持传统 PPT 和现代 PPTX 格式。

  2. 我需要安装 Microsoft PowerPoint 吗? 不。GroupDocs.Parser Cloud 独立于桌面软件工作。

  3. 我可以仅从特定幻灯片提取文本吗? 是的。您可以在请求选项中定义幻灯片编号或范围。

  4. 提取文本的格式是什么? 文本以纯文本 (.txt) 格式返回,适合分析或索引。

  5. 是否有可供测试的免费版本? 是的。您可以创建一个 免费试用帐户 并每月进行最多 150 次 API 调用。

有用的链接

相关文章