为什么要从 HTML 中提取文本?

HTML 文件包含标记、样式、脚本和其他元数据。提取干净的文本对于以下内容至关重要:

  • 内容迁移
  • 数据抓取
  • 索引和全文搜索
  • 为AI/ML模型准备训练数据
  • 文档分析工作流程
  • 处理基于HTML的电子邮件

我们的 .NET 云 SDK 帮助您使用简单而强大的 API 自动化整个过程。


HTML 文本提取 API

GroupDocs.Parser Cloud SDK for .NET 允许提取:

  • 可见的HTML文本
  • 结构化内容(标题,段落,列表)
  • UTF‑8 编码内容
  • Text from HTML email bodies
  • 没有脚本、样式和标记的纯文本

除了上述提到的 API 功能外,它还提供其他特性,例如:

  • 删除所有 HTML 标签
  • Extracts readable plain text
  • 支持大型 HTML 文件
  • 提供文本块分段
  • 与云存储协作

通过 NuGet 安装

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

您还需要在 GroupDocs Cloud dashboard 上创建一个帐户,以便获取客户端 ID 和客户端密钥(它们是使用 API 的必要条件)。


将 HTML 转换为 TXT 使用 C#

这里有一个完整的例子,展示如何使用SDK从HTML文件中提取文本。

步骤 1 — 初始化 API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

步骤 2 — 设置 HTML 输入:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

步骤 3 — 提取文本:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

步骤 4 — 保存输出:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 从本地驱动器加载输入 HTML 文件
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // 将 HTML 上传到云存储
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// 可选择地,您可以考虑将内容写入文本文件
File.WriteAllText("html-output.txt", response.Text);

通过 cURL 从 HTML 中提取文本

或者,如果您更喜欢使用命令行操作从 HTML 文件中提取文本,您也可以使用 GroupDocs.Parser Cloud 和 cURL 命令。

1. 生成访问令牌:

在这种方法中,前提是使用客户端凭据生成JWT访问令牌。请执行以下命令以生成JWT令牌。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. 提取HTML文本:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

尝试免费在线 HTML 文本提取器

体验 .NET REST API 的功能,而无需编写一行代码。试用我们的免费在线 HTML Parser 应用程序,在线提取 HTML 文本。

extract html text

结论

在本文中,您学习了如何使用 GroupDocs.Parser for .NET Cloud SDK 从 HTML 中提取文本。 API 使得:

  • 清晰文本提取
  • 移除 HTML 标记和脚本
  • 分段结构提取
  • 与 C# 应用程序集成
  • 自动化工作流程用于大型 HTML 数据集

这是一个理想的解决方案,用于在企业级应用中解析和处理 HTML。


相关文章


常见问题解答 (FAQs)

  1. API 是否会自动移除所有标签? 是的,仅返回可读文本。

  2. 它能解析非常大的 HTML 页面吗? 是的,服务已针对大输入进行了优化。

  3. 我可以按节提取文本吗? 是的,结构化提取返回块级元素。

  4. 它支持 HTML 邮件吗? 绝对 — 直接提取主体内容。

  5. 我可以获得免费试用吗? 是的,每月提供150次免费的API调用。