
從 PDF 文件中解鎖文本對於內容索引、自動化和數據分析至關重要。使用 GroupDocs.Parser Cloud SDK for Node.js,您可以通過簡單的 RESTful API 以編程方式從 PDF 中提取純文本或結構化文本—無需依賴繁重的工具或手動解析。
為什麼要從 PDF 中提取文本?
從 PDF 中提取文本對以下方面至關重要:
- 建立文件管理或光學字符識別管道。
- 自動化從合約、發票和報告中收集數據。
- 啟用數位檔案的全文搜尋。
- 清理和結構化 AI/ML 模型的內容。
讓我們更詳細地討論以下主題:
文本提取 REST API
The GroupDocs.Parser Cloud SDK for Node.js is a lightweight, high-performance wrapper for interacting with the GroupDocs.Parser Cloud REST API. It enables developers to extract structured or unstructured content, such as:
- Text (entire document, specific pages, or selected areas)
- Images
- Metadata
- 文件欄位
- 來自表格或表單的結構化數據
它支持多種格式——包括 PDF、 Word、 Excel、 PowerPoint、 MSG、 ZIP,以及更多。
先決條件 安裝 GroupDocs.Parser Cloud SDK 供 Node.js 使用:
npm install groupdocs-parser-cloud
在 GroupDocs.Cloud Dashboard 創建一個帳戶以獲取您的 Client ID 和 Client Secret 以進行身份驗證。如需更多信息,請訪問這篇 article。
如何使用 Node.js 從 PDF 中提取文本
按照這些步驟使用 Node.js SDK 從 PDF 中提取文本。
第 1 步:設置配置:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
步驟 2:配置 PDF 檔案輸入: 初始化一個 TextRequest 類別的物件並傳遞 TextOptions 類別的實例。
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
步驟 3:從 PDF 中提取文本: Invoke the text method, and it will return the plain text content of your PDF.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// 如需更多範例,請訪問 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
您可以在下圖中看到上述代碼範例的輸出:

從 PDF 中提取文本 via cURL
如果您偏好命令列操作或想要集成到腳本中?您可以使用 cURL 和 GroupDocs.Parser REST API 提取文本。
步驟 1 – 生成存取權杖:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
步驟 2 – 通過 REST API 提取圖像:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- 將 替換為您生成的令牌。
使用 cURL 與 GroupDocs.Parser API 的好處
- 不需要 SDK:直接使用 REST 進行快速整合。
- 平台無關性:適用於任何操作系統或語言。
- 理想的 CI/CD 管道:在 DevOps 環境中自動化文本提取。
- 輕量級:不需要安裝除 cURL 以外的任何東西。
線上文字擷取器
如果您正在尋找無需編碼的解決方案,那麼請使用我們免費的在線 PDF Text Extractor,該工具由 GroupDocs.Parser Cloud 提供支持。

結論
GroupDocs.Parser Cloud SDK for Node.js 使從 PDF 中提取文本變得輕而易舉,無論您需要完整的內容解析、數據挖掘還是文檔自動化。這個 API 支持 RESTful 調用和 cURL 集成,非常適合在 Node.js 或其他環境中構建現代的可擴展文檔處理應用。
📚 其他資源
常見問題 – FAQs
How do I extract images from Word?
您可以使用 GroupDocs.Parser Cloud SDKs 以程式方式從 PDF 文件中提取文本。請訪問這 link 以獲取更多詳細信息。
什麼是定價模型?
我們提供單一按使用付費的定價模式。如需進一步資訊,請訪問 pricing guide。