为什么要从 HTML 中提取文本?
HTML 文件包含标记、样式、脚本和其他元数据。提取干净的文本对于以下内容至关重要:
- 内容迁移
- 数据抓取
- 索引和全文搜索
- 为AI/ML模型准备训练数据
- 文档分析工作流程
- 处理基于HTML的电子邮件
我们的 .NET 云 SDK 帮助您使用简单而强大的 API 自动化整个过程。
HTML 文本提取 API
GroupDocs.Parser Cloud SDK for .NET 允许提取:
- 可见的HTML文本
- 结构化内容(标题,段落,列表)
- UTF‑8 编码内容
- Text from HTML email bodies
- 没有脚本、样式和标记的纯文本
除了上述提到的 API 功能外,它还提供其他特性,例如:
- 删除所有 HTML 标签
- Extracts readable plain text
- 支持大型 HTML 文件
- 提供文本块分段
- 与云存储协作
通过 NuGet 安装
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
您还需要在 GroupDocs Cloud dashboard 上创建一个帐户,以便获取客户端 ID 和客户端密钥(它们是使用 API 的必要条件)。
将 HTML 转换为 TXT 使用 C#
这里有一个完整的例子,展示如何使用SDK从HTML文件中提取文本。
步骤 1 — 初始化 API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
步骤 2 — 设置 HTML 输入:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
步骤 3 — 提取文本:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
步骤 4 — 保存输出:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// 从本地驱动器加载输入 HTML 文件
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// 将 HTML 上传到云存储
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// 可选择地,您可以考虑将内容写入文本文件
File.WriteAllText("html-output.txt", response.Text);
通过 cURL 从 HTML 中提取文本
或者,如果您更喜欢使用命令行操作从 HTML 文件中提取文本,您也可以使用 GroupDocs.Parser Cloud 和 cURL 命令。
1. 生成访问令牌:
在这种方法中,前提是使用客户端凭据生成JWT访问令牌。请执行以下命令以生成JWT令牌。
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. 提取HTML文本:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
尝试免费在线 HTML 文本提取器
体验 .NET REST API 的功能,而无需编写一行代码。试用我们的免费在线 HTML Parser 应用程序,在线提取 HTML 文本。

结论
在本文中,您学习了如何使用 GroupDocs.Parser for .NET Cloud SDK 从 HTML 中提取文本。 API 使得:
- 清晰文本提取
- 移除 HTML 标记和脚本
- 分段结构提取
- 与 C# 应用程序集成
- 自动化工作流程用于大型 HTML 数据集
这是一个理想的解决方案,用于在企业级应用中解析和处理 HTML。
相关文章
常见问题解答 (FAQs)
API 是否会自动移除所有标签? 是的,仅返回可读文本。
它能解析非常大的 HTML 页面吗? 是的,服务已针对大输入进行了优化。
我可以按节提取文本吗? 是的,结构化提取返回块级元素。
它支持 HTML 邮件吗? 绝对 — 直接提取主体内容。
我可以获得免费试用吗? 是的,每月提供150次免费的API调用。
