\"提取 HTML 中的文本 | HTML 文本解析器

為什麼要從 HTML 中提取文本？
HTML 文本提取 API
將 HTML 轉換為 TXT 使用 C#
從 HTML 中提取文本通過 cURL
嘗試免費的在線 HTML 文字提取器

為什麼要從 HTML 中提取文本？

HTML 檔案包含標記、樣式、腳本和其他元數據。提取乾淨的文本對於以下幾點至關重要：

內容遷移
資料擷取
索引與全文搜索
為AI/ML模型準備訓練數據
文件分析工作流程
處理基於 HTML 的電子郵件

我們的 .NET 雲端 SDK 幫助您使用簡單且強大的 API 自動化整個過程。

HTML 文本提取 API

The GroupDocs.Parser Cloud SDK for .NET 使得能夠抽取：

可見的 HTML 文本
結構化內容(標題、段落、列表)
UTF‑8 編碼內容
HTML 電子郵件內容中的文本
清除沒有腳本、樣式和標記的文本

除了上述提到的 API 功能，它還提供其他功能，例如：

Removes all HTML tags
Extracts readable plain text
支持大型 HTML 文件
提供文本區塊分割
與雲端儲存配合使用

透過 NuGet 安裝

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

您還需要在 GroupDocs Cloud dashboard 上創建一個帳戶，以便您可以獲得用戶端 ID 和用戶端密碼(它們是使用 API 所必需的)。

將 HTML 轉換為 TXT 使用 C#

這裡是一個完整的示例，展示如何使用 SDK 從 HTML 文件中提取文本。

步驟 1 — 初始化 API：

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

步驟 2 — 設定 HTML 輸入：

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

第 3 步 — 提取文本：

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Step 4 — Save Output:

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 從本地磁碟載入 HTML 檔案
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // 將 HTML 上傳到雲端儲存空間
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// 您可以選擇將內容寫入文本文件。
File.WriteAllText("html-output.txt", response.Text);

提取 HTML 中的文本透過 cURL

或者，如果您更喜歡使用命令行操作從 HTML 文件中提取文本，那麼您也可以使用 GroupDocs.Parser Cloud 搭配 cURL 命令。

1. 生成訪問令牌：

在這種方法中，前提是使用客戶端憑據生成JWT訪問令牌。請執行以下命令以生成JWT令牌。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. 擷取HTML文本：

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

試用免費的在線 HTML 文字提取工具

體驗 .NET REST API 的功能，而無需編寫任何代碼。試用我們的免費在線 HTML Parser 應用程式，並在線提取 HTML 文字。

結論

在這篇文章中，您學會了如何使用 GroupDocs.Parser Cloud SDK for .NET 從 HTML 中提取文本。該 API 使得：

清理文本提取
移除 HTML 標記和腳本
分段結構化提取
與 C# 應用程式的整合
自動化工作流程用於大型 HTML 數據集

這是一個理想的解決方案，用於在企業級應用程序中解析和處理 HTML。

常見問題 (FAQs)

API 是否會自動移除所有標籤？ Yes, only readable text is returned.
它能解析非常大的 HTML 頁面嗎？是的，這項服務已針對大型輸入進行優化。
我可以按照區段提取文本嗎？是的，結構化提取返回塊級元素。
是否支持 HTML 郵件？ Absolutely — extract body content directly.
我可以獲得免費試用嗎？是的，每月可以使用 150 次免費 API 調用。

\"從 HTML 中提取文本的 C# .NET | 最佳 HTML 文本提取 API\"

為什麼要從 HTML 中提取文本？

HTML 文本提取 API

透過 NuGet 安裝

將 HTML 轉換為 TXT 使用 C#

步驟 1 — 初始化 API：

步驟 2 — 設定 HTML 輸入：

第 3 步 — 提取文本：

Step 4 — Save Output:

提取 HTML 中的文本透過 cURL

1. 生成訪問令牌：

2. 擷取HTML文本：

試用免費的在線 HTML 文字提取工具

結論

相關文章

常見問題 (FAQs)

為什麼要從 HTML 中提取文本？#

HTML 文本提取 API#

透過 NuGet 安裝#

將 HTML 轉換為 TXT 使用 C##

步驟 1 — 初始化 API：#

步驟 2 — 設定 HTML 輸入：#

第 3 步 — 提取文本：#

Step 4 — Save Output:#

提取 HTML 中的文本透過 cURL#

1. 生成訪問令牌：#

2. 擷取HTML文本：#

試用免費的在線 HTML 文字提取工具#

結論#

相關文章#

常見問題 (FAQs)#

為什麼要從 HTML 中提取文本？

HTML 文本提取 API

透過 NuGet 安裝

將 HTML 轉換為 TXT 使用 C#

步驟 1 — 初始化 API：

步驟 2 — 設定 HTML 輸入：

第 3 步 — 提取文本：

Step 4 — Save Output:

提取 HTML 中的文本透過 cURL

1. 生成訪問令牌：

2. 擷取HTML文本：

試用免費的在線 HTML 文字提取工具

結論

相關文章

常見問題 (FAQs)