使用 Node.js 从 PDF 中提取文本 - 文本提取器

PDF 文件中解锁文本对于内容索引、自动化和数据分析至关重要。通过 Node.js 的 GroupDocs.Parser Cloud SDK,您可以通过简单的 RESTful API 以编程方式从 PDFs 中提取纯文本或结构化文本——无需依赖沉重的工具或手动解析。

为什么要从 PDF 中提取文本?

从PDF中提取文本对于以下方面至关重要:

  • 构建文档管理或 OCR 流程。
  • 从合同、发票和报告中自动收集数据。
  • 启用数字档案的全文搜索。
  • 清理和结构化内容以用于 AI/ML 模型。

让我们更详细地讨论以下主题:

文本提取 REST API

The GroupDocs.Parser Cloud SDK for Node.js 是一个轻量级,高性能的包装器,用于与 GroupDocs.Parser Cloud REST API 进行交互。它使开发者能够提取结构化或非结构化内容,例如:

  • 文本(整个文档、特定页面或选定区域)
  • Images
  • 元数据
  • 文档字段
  • 来自表格或表单的结构化数据

它支持多种格式 — 包括 PDF、WordExcelPowerPointMSGZIP 等等。

先决条件 安装 GroupDocs.Parser Cloud SDK for Node.js:

npm install groupdocs-parser-cloud

GroupDocs.Cloud Dashboard 创建一个账户以获取您的客户端 ID 和客户端密钥进行身份验证。有关更多信息,请访问这篇 article

如何使用 Node.js 从 PDF 中提取文本

按照以下步骤使用 Node.js SDK 从 PDF 中提取文本。

第 1 步:设置配置:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步骤 2:配置 PDF 文件输入: 初始化 TextRequest 类的对象,并传递 TextOptions 类的实例。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步骤 3:从 PDF 中提取文本: 调用 text 方法,它将返回您的 PDF 的纯文本内容。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 要获取更多示例,请访问 [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node](https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node)
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下方的图像中看到上述代码示例的输出:

pdf text extractor

从 PDF 中提取文本通过 cURL

如果您更喜欢命令行操作或想要集成到脚本中?您可以使用 cURL 通过 GroupDocs.Parser REST API 提取文本。

步骤 1 – 生成访问令牌:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 – 通过 REST API 提取图像:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 将 替换为您生成的令牌。

使用 cURL 结合 GroupDocs.Parser API 的好处

  • 无需 SDK:直接使用 REST 进行快速集成。
  • 平台无关:可与任何操作系统或语言配合使用。
  • 适合 CI/CD 管道:在 DevOps 环境中自动化文本提取。
  • 轻量级:除了 cURL 之外无需安装。

在线文本提取器

如果您正在寻找无代码解决方案,请使用我们的免费在线 PDF Text Extractor,由 GroupDocs.Parser Cloud 提供支持。

在线图像提取器

结论

GroupDocs.Parser Cloud SDK for Node.js 使从 PDF 中提取文本变得轻而易举,无论您是需要完整的内容解析、数据挖掘还是文档自动化。该 API 支持 RESTful 调用和 cURL 集成,非常适合在 Node.js 或其他环境中构建现代、可扩展的文档处理应用程序。

📚 额外资源

常见问题 – FAQs

如何从Word中提取图像?

你可以使用 GroupDocs.Parser Cloud SDKs 来程序matically 从 PDF 文件中提取文本。请访问这个 link 获取更多详情。

定价模型是什么?

我们提供一种一次性支付的按需定价模式。如需更多信息,请访问 pricing guide

推荐文章