從 PDF 中提取文本使用 Node.js - 文本提取器

PDF 文件中解鎖文本對於內容索引、自動化和數據分析至關重要。使用 GroupDocs.Parser Cloud SDK for Node.js,您可以通過簡單的 RESTful API 以編程方式從 PDF 中提取純文本或結構化文本—無需依賴繁重的工具或手動解析。

為什麼要從 PDF 中提取文本?

從 PDF 中提取文本對以下方面至關重要:

  • 建立文件管理或光學字符識別管道。
  • 自動化從合約、發票和報告中收集數據。
  • 啟用數位檔案的全文搜尋。
  • 清理和結構化 AI/ML 模型的內容。

讓我們更詳細地討論以下主題:

文本提取 REST API

The GroupDocs.Parser Cloud SDK for Node.js is a lightweight, high-performance wrapper for interacting with the GroupDocs.Parser Cloud REST API. It enables developers to extract structured or unstructured content, such as:

  • Text (entire document, specific pages, or selected areas)
  • Images
  • Metadata
  • 文件欄位
  • 來自表格或表單的結構化數據

它支持多種格式——包括 PDF、 WordExcelPowerPointMSGZIP,以及更多。

先決條件 安裝 GroupDocs.Parser Cloud SDK 供 Node.js 使用:

npm install groupdocs-parser-cloud

GroupDocs.Cloud Dashboard 創建一個帳戶以獲取您的 Client ID 和 Client Secret 以進行身份驗證。如需更多信息,請訪問這篇 article

如何使用 Node.js 從 PDF 中提取文本

按照這些步驟使用 Node.js SDK 從 PDF 中提取文本。

第 1 步:設置配置:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步驟 2:配置 PDF 檔案輸入: 初始化一個 TextRequest 類別的物件並傳遞 TextOptions 類別的實例。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步驟 3:從 PDF 中提取文本: Invoke the text method, and it will return the plain text content of your PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 如需更多範例,請訪問 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下圖中看到上述代碼範例的輸出:

pdf text extractor

從 PDF 中提取文本 via cURL

如果您偏好命令列操作或想要集成到腳本中?您可以使用 cURL 和 GroupDocs.Parser REST API 提取文本。

步驟 1 – 生成存取權杖:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步驟 2 – 通過 REST API 提取圖像:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 將 替換為您生成的令牌。

使用 cURL 與 GroupDocs.Parser API 的好處

  • 不需要 SDK:直接使用 REST 進行快速整合。
  • 平台無關性:適用於任何操作系統或語言。
  • 理想的 CI/CD 管道:在 DevOps 環境中自動化文本提取。
  • 輕量級:不需要安裝除 cURL 以外的任何東西。

線上文字擷取器

如果您正在尋找無需編碼的解決方案,那麼請使用我們免費的在線 PDF Text Extractor,該工具由 GroupDocs.Parser Cloud 提供支持。

線上圖片提取器

結論

GroupDocs.Parser Cloud SDK for Node.js 使從 PDF 中提取文本變得輕而易舉,無論您需要完整的內容解析、數據挖掘還是文檔自動化。這個 API 支持 RESTful 調用和 cURL 集成,非常適合在 Node.js 或其他環境中構建現代的可擴展文檔處理應用。

📚 其他資源

常見問題 – FAQs

How do I extract images from Word?

您可以使用 GroupDocs.Parser Cloud SDKs 以程式方式從 PDF 文件中提取文本。請訪問這 link 以獲取更多詳細信息。

什麼是定價模型?

我們提供單一按使用付費的定價模式。如需進一步資訊,請訪問 pricing guide

推薦文章