
从 PDF 文件中解锁文本对于内容索引、自动化和数据分析至关重要。通过 Node.js 的 GroupDocs.Parser Cloud SDK,您可以通过简单的 RESTful API 以编程方式从 PDFs 中提取纯文本或结构化文本——无需依赖沉重的工具或手动解析。
为什么要从 PDF 中提取文本?
从PDF中提取文本对于以下方面至关重要:
- 构建文档管理或 OCR 流程。
- 从合同、发票和报告中自动收集数据。
- 启用数字档案的全文搜索。
- 清理和结构化内容以用于 AI/ML 模型。
让我们更详细地讨论以下主题:
文本提取 REST API
The GroupDocs.Parser Cloud SDK for Node.js 是一个轻量级,高性能的包装器,用于与 GroupDocs.Parser Cloud REST API 进行交互。它使开发者能够提取结构化或非结构化内容,例如:
- 文本(整个文档、特定页面或选定区域)
- Images
- 元数据
- 文档字段
- 来自表格或表单的结构化数据
它支持多种格式 — 包括 PDF、Word、Excel、PowerPoint、MSG、ZIP 等等。
先决条件 安装 GroupDocs.Parser Cloud SDK for Node.js:
npm install groupdocs-parser-cloud
在 GroupDocs.Cloud Dashboard 创建一个账户以获取您的客户端 ID 和客户端密钥进行身份验证。有关更多信息,请访问这篇 article。
如何使用 Node.js 从 PDF 中提取文本
按照以下步骤使用 Node.js SDK 从 PDF 中提取文本。
第 1 步:设置配置:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
步骤 2:配置 PDF 文件输入: 初始化 TextRequest 类的对象,并传递 TextOptions 类的实例。
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
步骤 3:从 PDF 中提取文本: 调用 text 方法,它将返回您的 PDF 的纯文本内容。
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// 要获取更多示例,请访问 [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node](https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node)
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
您可以在下方的图像中看到上述代码示例的输出:

从 PDF 中提取文本通过 cURL
如果您更喜欢命令行操作或想要集成到脚本中?您可以使用 cURL 通过 GroupDocs.Parser REST API 提取文本。
步骤 1 – 生成访问令牌:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
步骤 2 – 通过 REST API 提取图像:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- 将 替换为您生成的令牌。
使用 cURL 结合 GroupDocs.Parser API 的好处
- 无需 SDK:直接使用 REST 进行快速集成。
- 平台无关:可与任何操作系统或语言配合使用。
- 适合 CI/CD 管道:在 DevOps 环境中自动化文本提取。
- 轻量级:除了 cURL 之外无需安装。
在线文本提取器
如果您正在寻找无代码解决方案,请使用我们的免费在线 PDF Text Extractor,由 GroupDocs.Parser Cloud 提供支持。

结论
GroupDocs.Parser Cloud SDK for Node.js 使从 PDF 中提取文本变得轻而易举,无论您是需要完整的内容解析、数据挖掘还是文档自动化。该 API 支持 RESTful 调用和 cURL 集成,非常适合在 Node.js 或其他环境中构建现代、可扩展的文档处理应用程序。
📚 额外资源
常见问题 – FAQs
如何从Word中提取图像?
你可以使用 GroupDocs.Parser Cloud SDKs 来程序matically 从 PDF 文件中提取文本。请访问这个 link 获取更多详情。
定价模型是什么?
我们提供一种一次性支付的按需定价模式。如需更多信息,请访问 pricing guide。