
如果您需要从 Microsoft Word 文档中提取纯文本或结构化文本以进行自动化、索引或分析,GroupDocs.Parser Cloud SDK for Node.js 提供了一个可靠的 RESTful 解决方案。只需几行代码,您就可以从 .doc 和 .docx 文件中提取内容,而无需安装 Microsoft Word 或使用任何服务器端工具。
Word Document Text Extraction API
The GroupDocs.Parser Cloud SDK for Node.js 是一个 REST API 的封装器,简化了提取:
- 文本(完整文档或选择页)。
- 表格和结构化数据。
- 元数据和嵌入字段。
- 附件和图片。
它支持多种格式,包括 PDF, Word, Excel, PowerPoint, MSG, ZIP,以及更多。
前提条件
- 在 GroupDocs.Cloud Dashboard 创建一个账户。
- 获取你的客户端 ID 和客户端密钥。
- 安装 SDK:
npm install groupdocs-parser-cloud
你可以考虑访问以下文章以了解更多信息, 如何获取你的客户端ID和客户端密钥以进行身份验证。
Word Document Text Extraction API
请按照以下步骤获取有关如何使用 Node.js SDK 从 Word 文档中提取文本的信息。
步骤 1:初始化配置:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
步骤 2:设置文件信息和文本选项: 初始化 TextRequest 类的对象,并传递 TextOptions 类的实例。
const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
步骤 3:从 Word 文件中提取文本: 调用 text 方法,它将返回 Word 文档中的纯文本内容。
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// 有关更多示例,请访问 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
// word文档的路径
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
您可以在下面的图像中查看上述代码示例的输出:

通过 cURL 提取 Word 文本
如果您更喜欢命令行操作或想要集成到脚本中?您可以使用 cURL 和 GroupDocs.Parser REST API 从 Word 文档中提取文本。
步骤 1 – 生成访问令牌:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
步骤 2 – 通过 API 调用提取文本:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"sample.docx\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- 将 替换为您生成的令牌。
使用 cURL 与 GroupDocs.Parser API 的好处
- ✅ 无需安装SDK。
- ✅ 跨平台自动化。
- ✅ 适合 shell 脚本和 CI 流水线。
- ✅ 高效且轻便。
在线文本提取器
使用我们的 Free Online Word Text Extractor,由 GroupDocs.Parser Cloud 提供支持,如果您更喜欢无代码选项。

结论
使用 GroupDocs.Parser Cloud SDK for Node.js,您可以轻松地从 Word 文档 (.docx 或 .doc) 中提取文本,以进行自动化、索引或数据挖掘。该 SDK 和 REST API 提供灵活且可扩展的选项,无论您是偏好 Node.js 还是直接使用 cURL 命令。
📚 额外资源
常见问题 – FAQs
- 我可以从 DOCX 表格中提取文本吗?
- 是的。GroupDocs.Parser 可以提取结构化内容,包括表格单元格和布局数据。
- Microsoft Word 是必需的吗?
- 不。API 运行在云端,不依赖于 Microsoft Office。
- 定价模型是什么?
- 我们提供单一的按需付费定价模型。有关更多信息,请访问 pricing guide。
- 我可以获得免费试用吗?
- 是的。一旦您订阅了免费试用账户,您可以每月免费进行 150 次 API 调用。请访问 pricing guide 获取更多详细信息。