為什麼要從 HTML 中提取文本?
HTML 檔案包含標記、樣式、腳本和其他元數據。提取乾淨的文本對於以下幾點至關重要:
- 內容遷移
- 資料擷取
- 索引與全文搜索
- 為AI/ML模型準備訓練數據
- 文件分析工作流程
- 處理基於 HTML 的電子郵件
我們的 .NET 雲端 SDK 幫助您使用簡單且強大的 API 自動化整個過程。
HTML 文本提取 API
The GroupDocs.Parser Cloud SDK for .NET 使得能夠抽取:
- 可見的 HTML 文本
- 結構化內容(標題、段落、列表)
- UTF‑8 編碼內容
- HTML 電子郵件內容中的文本
- 清除沒有腳本、樣式和標記的文本
除了上述提到的 API 功能,它還提供其他功能,例如:
- Removes all HTML tags
- Extracts readable plain text
- 支持大型 HTML 文件
- 提供文本區塊分割
- 與雲端儲存配合使用
透過 NuGet 安裝
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
您還需要在 GroupDocs Cloud dashboard 上創建一個帳戶,以便您可以獲得用戶端 ID 和用戶端密碼(它們是使用 API 所必需的)。
將 HTML 轉換為 TXT 使用 C#
這裡是一個完整的示例,展示如何使用 SDK 從 HTML 文件中提取文本。
步驟 1 — 初始化 API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
步驟 2 — 設定 HTML 輸入:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
第 3 步 — 提取文本:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Step 4 — Save Output:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// 從本地磁碟載入 HTML 檔案
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// 將 HTML 上傳到雲端儲存空間
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// 您可以選擇將內容寫入文本文件。
File.WriteAllText("html-output.txt", response.Text);
提取 HTML 中的文本透過 cURL
或者,如果您更喜歡使用命令行操作從 HTML 文件中提取文本,那麼您也可以使用 GroupDocs.Parser Cloud 搭配 cURL 命令。
1. 生成訪問令牌:
在這種方法中,前提是使用客戶端憑據生成JWT訪問令牌。請執行以下命令以生成JWT令牌。
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. 擷取HTML文本:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
試用免費的在線 HTML 文字提取工具
體驗 .NET REST API 的功能,而無需編寫任何代碼。試用我們的免費在線 HTML Parser 應用程式,並在線提取 HTML 文字。

結論
在這篇文章中,您學會了如何使用 GroupDocs.Parser Cloud SDK for .NET 從 HTML 中提取文本。 該 API 使得:
- 清理文本提取
- 移除 HTML 標記和腳本
- 分段結構化提取
- 與 C# 應用程式的整合
- 自動化工作流程用於大型 HTML 數據集
這是一個理想的解決方案,用於在企業級應用程序中解析和處理 HTML。
相關文章
常見問題 (FAQs)
API 是否會自動移除所有標籤? Yes, only readable text is returned.
它能解析非常大的 HTML 頁面嗎? 是的,這項服務已針對大型輸入進行優化。
我可以按照區段提取文本嗎? 是的,結構化提取返回塊級元素。
是否支持 HTML 郵件? Absolutely — extract body content directly.
我可以獲得免費試用嗎? 是的,每月可以使用 150 次免費 API 調用。
