從 PDF 中提取文本在 Node.js 中

從 PDF 文件中解鎖文本對於內容索引、自動化和數據分析至關重要。使用 GroupDocs.Parser Cloud SDK for Node.js，您可以通過簡單的 RESTful API 以編程方式從 PDF 中提取純文本或結構化文本—無需依賴繁重的工具或手動解析。

為什麼要從 PDF 中提取文本？

從 PDF 中提取文本對以下方面至關重要：

建立文件管理或光學字符識別管道。
自動化從合約、發票和報告中收集數據。
啟用數位檔案的全文搜尋。
清理和結構化 AI/ML 模型的內容。

讓我們更詳細地討論以下主題：

文本擷取 REST API
如何使用 Node.js 從 PDF 提取文本
通過 cURL 從 PDF 中提取文本
線上文字提取器

文本提取 REST API

The GroupDocs.Parser Cloud SDK for Node.js is a lightweight, high-performance wrapper for interacting with the GroupDocs.Parser Cloud REST API. It enables developers to extract structured or unstructured content, such as:

Text (entire document, specific pages, or selected areas)
Images
Metadata
文件欄位
來自表格或表單的結構化數據

它支持多種格式——包括 PDF、 Word、 Excel、 PowerPoint、 MSG、 ZIP，以及更多。

先決條件安裝 GroupDocs.Parser Cloud SDK 供 Node.js 使用：

npm install groupdocs-parser-cloud

在 GroupDocs.Cloud Dashboard 創建一個帳戶以獲取您的 Client ID 和 Client Secret 以進行身份驗證。如需更多信息，請訪問這篇 article。

如何使用 Node.js 從 PDF 中提取文本

按照這些步驟使用 Node.js SDK 從 PDF 中提取文本。

第 1 步：設置配置：

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步驟 2：配置 PDF 檔案輸入：初始化一個 TextRequest 類別的物件並傳遞 TextOptions 類別的實例。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步驟 3：從 PDF 中提取文本： Invoke the text method, and it will return the plain text content of your PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// 如需更多範例，請訪問 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下圖中看到上述代碼範例的輸出：

從 PDF 中提取文本 via cURL

如果您偏好命令列操作或想要集成到腳本中？您可以使用 cURL 和 GroupDocs.Parser REST API 提取文本。

步驟 1 – 生成存取權杖：

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步驟 2 – 通過 REST API 提取圖像：

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

將替換為您生成的令牌。

使用 cURL 與 GroupDocs.Parser API 的好處

不需要 SDK：直接使用 REST 進行快速整合。
平台無關性：適用於任何操作系統或語言。
理想的 CI/CD 管道：在 DevOps 環境中自動化文本提取。
輕量級：不需要安裝除 cURL 以外的任何東西。

線上文字擷取器

如果您正在尋找無需編碼的解決方案，那麼請使用我們免費的在線 PDF Text Extractor，該工具由 GroupDocs.Parser Cloud 提供支持。

結論

GroupDocs.Parser Cloud SDK for Node.js 使從 PDF 中提取文本變得輕而易舉，無論您需要完整的內容解析、數據挖掘還是文檔自動化。這個 API 支持 RESTful 調用和 cURL 集成，非常適合在 Node.js 或其他環境中構建現代的可擴展文檔處理應用。

📚 其他資源

GroupDocs.Parser Documentation
API 參考
GitHub SDK Repository
支持論壇
價格與計劃

常見問題 – FAQs

How do I extract images from Word?

您可以使用 GroupDocs.Parser Cloud SDKs 以程式方式從 PDF 文件中提取文本。請訪問這 link 以獲取更多詳細信息。

什麼是定價模型？

我們提供單一按使用付費的定價模式。如需進一步資訊，請訪問 pricing guide。

從 PDF 中提取文字的 Node.js | 文字提取 API 的 REST

為什麼要從 PDF 中提取文本？

文本提取 REST API

如何使用 Node.js 從 PDF 中提取文本

從 PDF 中提取文本 via cURL

使用 cURL 與 GroupDocs.Parser API 的好處

線上文字擷取器

結論

📚 其他資源

常見問題 – FAQs

推薦文章

為什麼要從 PDF 中提取文本？#

文本提取 REST API#

如何使用 Node.js 從 PDF 中提取文本#

從 PDF 中提取文本 via cURL#

使用 cURL 與 GroupDocs.Parser API 的好處#

線上文字擷取器#

結論#

📚 其他資源#

常見問題 – FAQs#

推薦文章#

為什麼要從 PDF 中提取文本？

文本提取 REST API

如何使用 Node.js 從 PDF 中提取文本

從 PDF 中提取文本 via cURL

使用 cURL 與 GroupDocs.Parser API 的好處

線上文字擷取器

結論

📚 其他資源

常見問題 – FAQs

推薦文章