使用 Node.js API 提取 Word 文档中的文本 - 文本提取器

如果您需要从 Microsoft Word 文档中提取纯文本或结构化文本以进行自动化、索引或分析,GroupDocs.Parser Cloud SDK for Node.js 提供了一个可靠的 RESTful 解决方案。只需几行代码,您就可以从 .doc.docx 文件中提取内容,而无需安装 Microsoft Word 或使用任何服务器端工具。

Word Document Text Extraction API

The GroupDocs.Parser Cloud SDK for Node.js 是一个 REST API 的封装器,简化了提取:

  • 文本(完整文档或选择页)。
  • 表格和结构化数据。
  • 元数据和嵌入字段。
  • 附件和图片。

它支持多种格式,包括 PDFWordExcelPowerPointMSGZIP,以及更多。

前提条件

  1. GroupDocs.Cloud Dashboard 创建一个账户。
  2. 获取你的客户端 ID 和客户端密钥。
  3. 安装 SDK:
npm install groupdocs-parser-cloud

你可以考虑访问以下文章以了解更多信息, 如何获取你的客户端ID和客户端密钥以进行身份验证

Word Document Text Extraction API

请按照以下步骤获取有关如何使用 Node.js SDK 从 Word 文档中提取文本的信息。

步骤 1:初始化配置:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步骤 2:设置文件信息和文本选项: 初始化 TextRequest 类的对象,并传递 TextOptions 类的实例。

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步骤 3:从 Word 文件中提取文本: 调用 text 方法,它将返回 Word 文档中的纯文本内容。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 有关更多示例,请访问 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// word文档的路径
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下面的图像中查看上述代码示例的输出:

提取 Word 文档文本

通过 cURL 提取 Word 文本

如果您更喜欢命令行操作或想要集成到脚本中?您可以使用 cURL 和 GroupDocs.Parser REST API 从 Word 文档中提取文本。

步骤 1 – 生成访问令牌:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 – 通过 API 调用提取文本:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 将 替换为您生成的令牌。

使用 cURL 与 GroupDocs.Parser API 的好处

  • ✅ 无需安装SDK。
  • ✅ 跨平台自动化。
  • ✅ 适合 shell 脚本和 CI 流水线。
  • ✅ 高效且轻便。

在线文本提取器

使用我们的 Free Online Word Text Extractor,由 GroupDocs.Parser Cloud 提供支持,如果您更喜欢无代码选项。

在线文本提取器

结论

使用 GroupDocs.Parser Cloud SDK for Node.js,您可以轻松地从 Word 文档 (.docx 或 .doc) 中提取文本,以进行自动化、索引或数据挖掘。该 SDK 和 REST API 提供灵活且可扩展的选项,无论您是偏好 Node.js 还是直接使用 cURL 命令。

📚 额外资源

常见问题 – FAQs

  1. 我可以从 DOCX 表格中提取文本吗?
  • 是的。GroupDocs.Parser 可以提取结构化内容,包括表格单元格和布局数据。
  1. Microsoft Word 是必需的吗?
  • 不。API 运行在云端,不依赖于 Microsoft Office。
  1. 定价模型是什么?
  • 我们提供单一的按需付费定价模型。有关更多信息,请访问 pricing guide
  1. 我可以获得免费试用吗?
  • 是的。一旦您订阅了免费试用账户,您可以每月免费进行 150 次 API 调用。请访问 pricing guide 获取更多详细信息。

推荐文章