将Word文档(DOCDOCX)转换为文本格式是数据提取、索引或自动化工作流程中的常见需求。在.NET Cloud SDK的帮助下,您可以轻松地从Word文档中提取文本,用于自然语言处理、内容分析或存储大量文本数据,而无需依赖Microsoft Word。

Word to Text Conversion API

GroupDocs.Parser Cloud SDK for .NET 提供强大的工具,用于解析、提取和将 Word 文档转换为文本格式。它支持 DOC、DOCX 和其他流行的文档格式,为开发者在 .NET 应用程序中快速构建文档到文本或 docx 到 txt 的转换器提供了便捷的方式。

先决条件

  • GroupDocs Cloud Dashboard 注册。
  • 获取您的客户端 ID 和客户端密钥。有关更多信息,请访问 this article
  • 安装 .NET 6.0 或更高版本及 Visual Studio。
  • 从 NuGet 包安装 SDK:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

使用 C# 将 DOCX 转换为 TXT

这里是一个简单的示例,演示如何使用 GroupDocs.Parser Cloud SDK for .NET 将 DOCX 转换为 TXT 或从 Word 文档中提取文本。

1.: 初始化 API 配置

var config = new Configuration
{
    ClientId = "YOUR_CLIENT_ID",
    ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);

2.: 调用 Parse 方法提取文档的文本内容。 初始化一个 ImagesRequest 对象,传入 ImagesOptions 类的实例作为参数。

var response = parserApi.Parse(new ParseRequest("sample.docx"));

3.: 将提取的文本保存为本地 .txt 文件以便进一步处理。

File.WriteAllText("output.txt", response.Text);
  • 💡 您还可以通过在 ParseOptions 参数中设置过滤器来提取特定页面或段落的文本。
// 有关更多示例,请访问 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
    // upload the input Word document to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.docx" }
};

var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

通过 cURL 抽取 Word 文本

如果您更偏好命令行操作,您可以通过 cURL 直接使用 REST API 在线将 DOC 或 DOCX 转换为文本。

步骤 1:获取访问令牌:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

步骤 2:将 DOCX 转换为 TXT:

curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
  -H "accept: application/json" \
  -H "authorization: Bearer {ACCESS_TOKEN}" \
  -o "{outputFile}.txt"

{inputFile} 替换为您的 Word 文件名,将 {outputFile} 替换为所需的 TXT 文件名以便本地保存。

免费 DOCX 到 TXT 转换器在线

如果你想快速尝试 Word to text conversion online,可以查看免费的 DOCX 到 TXT 转换器。它允许你上传并立即将任何 Word 文件直接在浏览器中转换为文本格式 — 无需安装或编码。

免费图像提取器

总结

我们已经探索了我们的 .NET Cloud SDK 提供了一种可靠的基于云的解决方案,用于从 Word 文档中提取文本并将其转换为 TXT 格式。它简化了数据提取、内容分析和集成。 企业文档处理系统。

为什么使用 GroupDocs.Parser Cloud?

  • 支持 DOC 和 DOCX 格式。
  • 与 .NET 应用程序的轻松集成。
  • 100% 云端 — 不需要 Microsoft Word。
  • 生成干净的 TXT 输出,准备进行数据处理或存储。

常见问题解答 (FAQs)

  1. 可以使用 C# 将 DOCX 转换为 TXT 吗?
  • 是的。该 SDK 允许您直接以 TXT 格式从 Word 文档中提取和保存文本。
  1. 它支持 DOC 以及 DOCX 文件吗?
  • 是的。这两种文件格式都完全支持转换和文本提取。
  1. 此转换需要 Microsoft Word 吗?
  • 不。转换完全在GroupDocs云平台上进行。
  1. 我可以选择特定的部分或页面进行提取吗?
  • 是的。您可以定义页面范围或区域以进行部分文本提取。

有用的链接

相关的文章