有时,PowerPoint 演示文稿 (PPTX, PPT) 包含重要的文本信息,例如标题、要点和描述,您可能需要分析或重用这些信息。本文演示了如何使用 .NET REST API 以编程方式从 PowerPoint 幻灯片 (PPT 或 PPTX) 中提取文本,而不是手动复制文本。
- 为什么从 PowerPoint 中提取文本?
- PowerPoint 文本提取 API
- 在 C# .NET 中提取 PPTX 文本
- 使用 cURL 提取 PowerPoint 文本
- 尝试在线 PowerPoint 文本提取器
为什么要从 PowerPoint 中提取文本?
从 PowerPoint 幻灯片中提取文本在您想要时非常有用:
- Retrieve content or notes from presentation slides for documentation.
- 在知识系统中索引和搜索幻灯片内容。
- 进行内容分析或文本挖掘。
- 自动化批量提取 PowerPoint 文本以便归档或报告。
通过使用 GroupDocs.Parser Cloud,您可以轻松地安全地从 PowerPoint 演示文稿中提取文本内容,而无需在其系统上安装 PowerPoint。
PowerPoint 文本提取 API
GroupDocs.Parser Cloud SDK for .NET 是一个强大的 REST API,旨在从多种文档格式中提取文本、元数据和结构化数据,包括 PowerPoint, Word、Excel 和 PDF。
前提条件
在开始之前,请确保您已:
- 一个 GroupDocs Cloud account 获取您的客户端 ID 和客户端秘密。
- 在您的系统上安装 .NET 6.0 或更高版本。
- Visual Studio 或其他兼容的 IDE。
安装 SDK
通过 NuGet 安装包:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0
在 C# .NET 中从 PPTX 中提取文本
按照以下步骤以编程方式从 PowerPoint 演示文稿中提取文本。
步骤 1 – 初始化 API
var configuration = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(configuration);
步骤 2 – 设置文件信息
var fileInfo = new FileInfo { FilePath = "presentation.pptx" };
var options = new ParseOptions { FileInfo = fileInfo };
var request = new ParseRequest(options);
步骤 3 – 从幻灯片中提取文本
var response = parserApi.Parse(request);
Console.WriteLine("Extracted Text: ");
Console.WriteLine(response.Text);
/ For further examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// 加载输入的 PowerPoint 文档
using (var fileStream = OpenRead("input.pptx"))
{
// 将输入的PPT上传到云存储
var uploadRequest = new Requests.UploadFileRequest("input.pptx", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.pptx" }
};
var request = new TextRequest(options);
// 从PowerPoint演示文稿中提取文本
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
💡 您可以通过在
ParseOptions参数中定义幻灯片编号来修改请求,以仅提取选定幻灯片中的文本。
使用 cURL 提取 PowerPoint 文本
如果您更喜欢使用直接的 REST API 调用,请使用以下 cURL 命令从 PowerPoint 文件中提取文本,而无需编写代码。
步骤 1 – 获取访问令牌
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
步骤 2 - 从 PowerPoint 中提取文本
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"slides.pptx\", \"StorageName\": \"internal\" } }"
将
{ACCESSTOKEN}替换为上述获得的令牌, 并在FilePath下指定您的 PowerPoint 文件名。
尝试在线 PowerPoint 文本提取器
您还可以使用我们的免费 Online PowerPoint Text Extractor 来测试 API 功能,而无需编写代码。上传您的 PowerPoint 文件,立即下载提取的文本内容,格式为纯文本。

使用 GroupDocs.Parser Cloud 从 PowerPoint 在线提取文本。
结论
在本教程中,您学习了如何使用 GroupDocs.Parser Cloud SDK for .NET 从 PowerPoint 演示文稿中提取文本。这种方法允许开发人员自动化 PowerPoint 文本提取,非常适合构建内容分析、索引或搜索解决方案。
关键优势:
- 轻松提取 PPT 和 PPTX 幻灯片中的文本。
- 无需安装 PowerPoint。
- 完全基于云的,具有 REST API 集成。
- 导出干净、结构化的文本数据以便进一步处理。
常见问题 – FAQs
我可以从 PPT 和 PPTX 文件中提取文本吗? 是的。该 API 支持传统 PPT 和现代 PPTX 格式。
我需要安装 Microsoft PowerPoint 吗? 不。GroupDocs.Parser Cloud 独立于桌面软件工作。
我可以仅从特定幻灯片提取文本吗? 是的。您可以在请求选项中定义幻灯片编号或范围。
提取文本的格式是什么? 文本以纯文本 (.txt) 格式返回,适合分析或索引。
是否有可供测试的免费版本? 是的。您可以创建一个 免费试用帐户 并每月进行最多 150 次 API 调用。
