\"从HTML提取文本 | HTML文本解析器

为什么从 HTML 中提取文本？
HTML 文本提取 API
将 HTML 转换为 TXT 使用 C#
通过 cURL 从 HTML 中提取文本
尝试免费的在线 HTML 文本提取器

为什么要从 HTML 中提取文本？

HTML 文件包含标记、样式、脚本和其他元数据。提取干净的文本对于以下内容至关重要：

内容迁移
数据抓取
索引和全文搜索
为AI/ML模型准备训练数据
文档分析工作流程
处理基于HTML的电子邮件

我们的 .NET 云 SDK 帮助您使用简单而强大的 API 自动化整个过程。

HTML 文本提取 API

GroupDocs.Parser Cloud SDK for .NET 允许提取：

可见的HTML文本
结构化内容(标题，段落，列表)
UTF‑8 编码内容
Text from HTML email bodies
没有脚本、样式和标记的纯文本

除了上述提到的 API 功能外，它还提供其他特性，例如：

删除所有 HTML 标签
Extracts readable plain text
支持大型 HTML 文件
提供文本块分段
与云存储协作

通过 NuGet 安装

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

您还需要在 GroupDocs Cloud dashboard 上创建一个帐户，以便获取客户端 ID 和客户端密钥(它们是使用 API 的必要条件)。

将 HTML 转换为 TXT 使用 C#

这里有一个完整的例子，展示如何使用SDK从HTML文件中提取文本。

步骤 1 — 初始化 API：

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

步骤 2 — 设置 HTML 输入：

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

步骤 3 — 提取文本：

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

步骤 4 — 保存输出：

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 从本地驱动器加载输入 HTML 文件
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // 将 HTML 上传到云存储
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// 可选择地，您可以考虑将内容写入文本文件
File.WriteAllText("html-output.txt", response.Text);

通过 cURL 从 HTML 中提取文本

或者，如果您更喜欢使用命令行操作从 HTML 文件中提取文本，您也可以使用 GroupDocs.Parser Cloud 和 cURL 命令。

1. 生成访问令牌：

在这种方法中，前提是使用客户端凭据生成JWT访问令牌。请执行以下命令以生成JWT令牌。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. 提取HTML文本：

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

尝试免费在线 HTML 文本提取器

体验 .NET REST API 的功能，而无需编写一行代码。试用我们的免费在线 HTML Parser 应用程序，在线提取 HTML 文本。

结论

在本文中，您学习了如何使用 GroupDocs.Parser for .NET Cloud SDK 从 HTML 中提取文本。 API 使得：

清晰文本提取
移除 HTML 标记和脚本
分段结构提取
与 C# 应用程序集成
自动化工作流程用于大型 HTML 数据集

这是一个理想的解决方案，用于在企业级应用中解析和处理 HTML。

常见问题解答 (FAQs)

API 是否会自动移除所有标签？是的，仅返回可读文本。
它能解析非常大的 HTML 页面吗？是的，服务已针对大输入进行了优化。
我可以按节提取文本吗？是的，结构化提取返回块级元素。
它支持 HTML 邮件吗？绝对 — 直接提取主体内容。
我可以获得免费试用吗？是的，每月提供150次免费的API调用。

\"从 HTML 中提取文本的 C# .NET | 最佳 HTML 文本提取 API\"

为什么要从 HTML 中提取文本？

HTML 文本提取 API

通过 NuGet 安装

将 HTML 转换为 TXT 使用 C#

步骤 1 — 初始化 API：

步骤 2 — 设置 HTML 输入：

步骤 3 — 提取文本：

步骤 4 — 保存输出：

通过 cURL 从 HTML 中提取文本

1. 生成访问令牌：

2. 提取HTML文本：

尝试免费在线 HTML 文本提取器

结论

相关文章

常见问题解答 (FAQs)

为什么要从 HTML 中提取文本？#

HTML 文本提取 API#

通过 NuGet 安装#

将 HTML 转换为 TXT 使用 C##

步骤 1 — 初始化 API：#

步骤 2 — 设置 HTML 输入：#

步骤 3 — 提取文本：#

步骤 4 — 保存输出：#

通过 cURL 从 HTML 中提取文本#

1. 生成访问令牌：#

2. 提取HTML文本：#

尝试免费在线 HTML 文本提取器#

结论#

相关文章#

常见问题解答 (FAQs)#

为什么要从 HTML 中提取文本？

HTML 文本提取 API

通过 NuGet 安装

将 HTML 转换为 TXT 使用 C#

步骤 1 — 初始化 API：

步骤 2 — 设置 HTML 输入：

步骤 3 — 提取文本：

步骤 4 — 保存输出：

通过 cURL 从 HTML 中提取文本

1. 生成访问令牌：

2. 提取HTML文本：

尝试免费在线 HTML 文本提取器

结论

相关文章

常见问题解答 (FAQs)