使用 Node.js API 提取 Word 文檔中的文字 - 文本提取器

如果您需要從 Microsoft Word 文件中提取純文本或結構化文本以進行自動化、編制索引或分析,GroupDocs.Parser Cloud SDK for Node.js 提供了一個可靠的 RESTful 解決方案。只需幾行代碼,您就可以從 .doc.docx 文件中提取內容,而無需安裝 Microsoft Word 或使用任何服務器端工具。

Word Document Text Extraction API

The GroupDocs.Parser Cloud SDK for Node.js 是一個用於 REST API 的包裝器,可以簡化提取:

  • Text (full document or selective pages).
  • 表格和結構化數據。
  • 元數據和嵌入式欄位。
  • 附件和圖片。

它支持多種格式,包括 PDFWordExcelPowerPointMSGZIP 等等。

先決條件

  1. GroupDocs.Cloud Dashboard 創建一個帳戶。
  2. 獲取您的客戶 ID 和客戶密鑰。
  3. 安裝 SDK:
npm install groupdocs-parser-cloud

您可以考慮訪問以下文章以了解更多有關 如何獲取您的 Client ID 和 Client Secret 以進行身份驗證 的信息。

Word Document Text Extraction API

請按照以下步驟獲取有關如何使用 Node.js SDK 從 Word 文檔中提取文本的信息。

步驟 1:初始化配置:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步驟 2:設置文件信息和文本選項: 初始化 TextRequest 類的物件,並傳遞 TextOptions 類的實例。

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步驟 3:從 Word 檔案中提取文本: Invoke the text method, and it will return the plain text content from Word document.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 欲了解更多範例,請造訪 [ https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node ]
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下面的圖片中看到上述代碼範例的輸出:

extract word document text

Extract Text from Word via cURL

如果您偏好命令行操作或想要集成到腳本中?您可以使用 cURL 和 GroupDocs.Parser REST API 從 Word 文件中提取文本。

步驟 1 – 生成訪問令牌:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步驟 2 – 透過 API 呼叫擷取文本:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 將 替換為您生成的那個。

使用 cURL 與 GroupDocs.Parser API 的好處

  • ✅ 無需安裝 SDK。
  • ✅ 跨平台自動化。
  • ✅ 理想用於 shell 腳本和 CI 管道。
  • ✅ 高效且輕量。

在線文字提取器

使用我們的 Free Online Word Text ExtractorGroupDocs.Parser Cloud 提供支援的無程式碼選項。

在線文字提取器

結論

使用 GroupDocs.Parser Cloud SDK for Node.js,您可以輕鬆地從 Word 文件 (.docx 或 .doc) 中提取文本,以便進行自動化、索引或數據挖掘。該 SDK 和 REST API 提供靈活且可擴展的選項,無論您是選擇 Node.js 還是直接使用 cURL 命令。

📚 附加資源

常見問題 – FAQs

  1. Can I extract text from DOCX tables too?
  • 是的。GroupDocs.Parser 可以提取結構化內容,包括表格單元格和佈局數據。
  1. Is Microsoft Word required?
  • 不。該 API 運行在雲端,並不依賴於 Microsoft Office。
  1. 定價模型是什麼?
  • 我們提供單一的隨用隨付定價模式。欲了解更多資訊,請訪問 pricing guide
  1. 我可以有免費試用嗎?
  • 是的。一旦您訂閱了免費試用帳戶,您可以每月免費進行 150 次 API 調用。請訪問 pricing guide 以獲取更多詳細信息。

推薦文章