从 Word 中提取文本的 Node.js | Word 文档解析 API

如果您需要从 Microsoft Word 文档中提取纯文本或结构化文本以进行自动化、索引或分析，GroupDocs.Parser Cloud SDK for Node.js 提供了一个可靠的 RESTful 解决方案。只需几行代码，您就可以从 .doc 和 .docx 文件中提取内容，而无需安装 Microsoft Word 或使用任何服务器端工具。

Word Document Text Extraction API
如何使用 Node.js 从 Word 中提取文本
通过 cURL 从 Word 中提取文本
在线文字提取器

Word Document Text Extraction API

The GroupDocs.Parser Cloud SDK for Node.js 是一个 REST API 的封装器，简化了提取：

文本(完整文档或选择页)。
表格和结构化数据。
元数据和嵌入字段。
附件和图片。

它支持多种格式，包括 PDF， Word， Excel， PowerPoint， MSG， ZIP，以及更多。

前提条件

在 GroupDocs.Cloud Dashboard 创建一个账户。
获取你的客户端 ID 和客户端密钥。
安装 SDK：

npm install groupdocs-parser-cloud

你可以考虑访问以下文章以了解更多信息，如何获取你的客户端ID和客户端密钥以进行身份验证。

Word Document Text Extraction API

请按照以下步骤获取有关如何使用 Node.js SDK 从 Word 文档中提取文本的信息。

步骤 1：初始化配置：

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

步骤 2：设置文件信息和文本选项：初始化 TextRequest 类的对象，并传递 TextOptions 类的实例。

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

步骤 3：从 Word 文件中提取文本：调用 text 方法，它将返回 Word 文档中的纯文本内容。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// 有关更多示例，请访问 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// word文档的路径
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

您可以在下面的图像中查看上述代码示例的输出：

通过 cURL 提取 Word 文本

如果您更喜欢命令行操作或想要集成到脚本中？您可以使用 cURL 和 GroupDocs.Parser REST API 从 Word 文档中提取文本。

步骤 1 – 生成访问令牌：

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2 – 通过 API 调用提取文本：

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

将替换为您生成的令牌。

使用 cURL 与 GroupDocs.Parser API 的好处

✅ 无需安装SDK。
✅ 跨平台自动化。
✅ 适合 shell 脚本和 CI 流水线。
✅ 高效且轻便。

在线文本提取器

使用我们的 Free Online Word Text Extractor，由 GroupDocs.Parser Cloud 提供支持，如果您更喜欢无代码选项。

结论

使用 GroupDocs.Parser Cloud SDK for Node.js，您可以轻松地从 Word 文档 (.docx 或 .doc) 中提取文本，以进行自动化、索引或数据挖掘。该 SDK 和 REST API 提供灵活且可扩展的选项，无论您是偏好 Node.js 还是直接使用 cURL 命令。

📚 额外资源

解析器 API 文档
API Reference
GitHub SDK (Node.js)
定价与计划
支持论坛

常见问题 – FAQs

我可以从 DOCX 表格中提取文本吗？

是的。GroupDocs.Parser 可以提取结构化内容，包括表格单元格和布局数据。

Microsoft Word 是必需的吗？

不。API 运行在云端，不依赖于 Microsoft Office。

定价模型是什么？

我们提供单一的按需付费定价模型。有关更多信息，请访问 pricing guide。

我可以获得免费试用吗？

是的。一旦您订阅了免费试用账户，您可以每月免费进行 150 次 API 调用。请访问 pricing guide 获取更多详细信息。

从 Word 中提取文本的 Node.js | Word 文本提取器 API

Word Document Text Extraction API

Word Document Text Extraction API

通过 cURL 提取 Word 文本

使用 cURL 与 GroupDocs.Parser API 的好处

在线文本提取器

结论

📚 额外资源

常见问题 – FAQs

推荐文章

Word Document Text Extraction API#

Word Document Text Extraction API#

通过 cURL 提取 Word 文本#

使用 cURL 与 GroupDocs.Parser API 的好处#

在线文本提取器#

结论#

📚 额外资源#

常见问题 – FAQs#

推荐文章#

Word Document Text Extraction API

Word Document Text Extraction API

通过 cURL 提取 Word 文本

使用 cURL 与 GroupDocs.Parser API 的好处

在线文本提取器

结论

📚 额外资源

常见问题 – FAQs

推荐文章