从 PDF 提取文本的 Node.js | 文本提取 REST API

从 PDF 文件中解锁文本对于内容索引、自动化和数据分析至关重要。通过 Node.js 的 GroupDocs.Parser Cloud SDK，您可以通过简单的 RESTful API 以编程方式从 PDFs 中提取纯文本或结构化文本——无需依赖沉重的工具或手动解析。

为什么要从 PDF 中提取文本？

从PDF中提取文本对于以下方面至关重要：

构建文档管理或 OCR 流程。
从合同、发票和报告中自动收集数据。
启用数字档案的全文搜索。
清理和结构化内容以用于 AI/ML 模型。

让我们更详细地讨论以下主题：

文本提取 REST API
如何使用 Node.js 从 PDF 中提取文本
通过 cURL 从 PDF 中提取文本
在线文本提取器

文本提取 REST API

The GroupDocs.Parser Cloud SDK for Node.js 是一个轻量级，高性能的包装器，用于与 GroupDocs.Parser Cloud REST API 进行交互。它使开发者能够提取结构化或非结构化内容，例如：

文本(整个文档、特定页面或选定区域)
Images
元数据
文档字段
来自表格或表单的结构化数据

它支持多种格式 — 包括 PDF、Word、Excel、PowerPoint、MSG、ZIP 等等。

先决条件安装 GroupDocs.Parser Cloud SDK for Node.js：

npm install groupdocs-parser-cloud

在 GroupDocs.Cloud Dashboard 创建一个账户以获取您的客户端 ID 和客户端密钥进行身份验证。有关更多信息，请访问这篇 article。

如何使用 Node.js 从 PDF 中提取文本

按照以下步骤使用 Node.js SDK 从 PDF 中提取文本。

第 1 步：设置配置：

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步骤 2：配置 PDF 文件输入：初始化 TextRequest 类的对象，并传递 TextOptions 类的实例。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步骤 3：从 PDF 中提取文本：调用 text 方法，它将返回您的 PDF 的纯文本内容。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// 要获取更多示例，请访问 [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node](https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node)
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下方的图像中看到上述代码示例的输出：

从 PDF 中提取文本通过 cURL

如果您更喜欢命令行操作或想要集成到脚本中？您可以使用 cURL 通过 GroupDocs.Parser REST API 提取文本。

步骤 1 – 生成访问令牌：

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 – 通过 REST API 提取图像:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

将替换为您生成的令牌。

使用 cURL 结合 GroupDocs.Parser API 的好处

无需 SDK：直接使用 REST 进行快速集成。
平台无关：可与任何操作系统或语言配合使用。
适合 CI/CD 管道：在 DevOps 环境中自动化文本提取。
轻量级：除了 cURL 之外无需安装。

在线文本提取器

如果您正在寻找无代码解决方案，请使用我们的免费在线 PDF Text Extractor，由 GroupDocs.Parser Cloud 提供支持。

结论

GroupDocs.Parser Cloud SDK for Node.js 使从 PDF 中提取文本变得轻而易举，无论您是需要完整的内容解析、数据挖掘还是文档自动化。该 API 支持 RESTful 调用和 cURL 集成，非常适合在 Node.js 或其他环境中构建现代、可扩展的文档处理应用程序。

📚 额外资源

GroupDocs.Parser Documentation
API Reference
GitHub SDK Repository
支持论坛
定价和计划

常见问题 – FAQs

如何从Word中提取图像？

你可以使用 GroupDocs.Parser Cloud SDKs 来程序matically 从 PDF 文件中提取文本。请访问这个 link 获取更多详情。

定价模型是什么？

我们提供一种一次性支付的按需定价模式。如需更多信息，请访问 pricing guide。

从 PDF 中提取文本的 Node.js | 带有 REST 的文本提取 API

为什么要从 PDF 中提取文本？

文本提取 REST API

如何使用 Node.js 从 PDF 中提取文本

从 PDF 中提取文本通过 cURL

使用 cURL 结合 GroupDocs.Parser API 的好处

在线文本提取器

结论

📚 额外资源

常见问题 – FAQs

推荐文章

为什么要从 PDF 中提取文本？#

文本提取 REST API#

如何使用 Node.js 从 PDF 中提取文本#

从 PDF 中提取文本通过 cURL#

使用 cURL 结合 GroupDocs.Parser API 的好处#

在线文本提取器#

结论#

📚 额外资源#

常见问题 – FAQs#

推荐文章#

为什么要从 PDF 中提取文本？

文本提取 REST API

如何使用 Node.js 从 PDF 中提取文本

从 PDF 中提取文本通过 cURL

使用 cURL 结合 GroupDocs.Parser API 的好处

在线文本提取器

结论

📚 额外资源

常见问题 – FAQs

推荐文章