為什麼要從 HTML 中提取文本?

HTML 檔案包含標記、樣式、腳本和其他元數據。提取乾淨的文本對於以下幾點至關重要:

  • 內容遷移
  • 資料擷取
  • 索引與全文搜索
  • 為AI/ML模型準備訓練數據
  • 文件分析工作流程
  • 處理基於 HTML 的電子郵件

我們的 .NET 雲端 SDK 幫助您使用簡單且強大的 API 自動化整個過程。


HTML 文本提取 API

The GroupDocs.Parser Cloud SDK for .NET 使得能夠抽取:

  • 可見的 HTML 文本
  • 結構化內容(標題、段落、列表)
  • UTF‑8 編碼內容
  • HTML 電子郵件內容中的文本
  • 清除沒有腳本、樣式和標記的文本

除了上述提到的 API 功能,它還提供其他功能,例如:

  • Removes all HTML tags
  • Extracts readable plain text
  • 支持大型 HTML 文件
  • 提供文本區塊分割
  • 與雲端儲存配合使用

透過 NuGet 安裝

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

您還需要在 GroupDocs Cloud dashboard 上創建一個帳戶,以便您可以獲得用戶端 ID 和用戶端密碼(它們是使用 API 所必需的)。


將 HTML 轉換為 TXT 使用 C#

這裡是一個完整的示例,展示如何使用 SDK 從 HTML 文件中提取文本。

步驟 1 — 初始化 API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

步驟 2 — 設定 HTML 輸入:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

第 3 步 — 提取文本:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Step 4 — Save Output:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// 從本地磁碟載入 HTML 檔案
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // 將 HTML 上傳到雲端儲存空間
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// 您可以選擇將內容寫入文本文件。
File.WriteAllText("html-output.txt", response.Text);

提取 HTML 中的文本透過 cURL

或者,如果您更喜歡使用命令行操作從 HTML 文件中提取文本,那麼您也可以使用 GroupDocs.Parser Cloud 搭配 cURL 命令。

1. 生成訪問令牌:

在這種方法中,前提是使用客戶端憑據生成JWT訪問令牌。請執行以下命令以生成JWT令牌。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. 擷取HTML文本:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

試用免費的在線 HTML 文字提取工具

體驗 .NET REST API 的功能,而無需編寫任何代碼。試用我們的免費在線 HTML Parser 應用程式,並在線提取 HTML 文字。

extract html text

結論

在這篇文章中,您學會了如何使用 GroupDocs.Parser Cloud SDK for .NET 從 HTML 中提取文本。 該 API 使得:

  • 清理文本提取
  • 移除 HTML 標記和腳本
  • 分段結構化提取
  • 與 C# 應用程式的整合
  • 自動化工作流程用於大型 HTML 數據集

這是一個理想的解決方案,用於在企業級應用程序中解析和處理 HTML。


相關文章


常見問題 (FAQs)

  1. API 是否會自動移除所有標籤? Yes, only readable text is returned.

  2. 它能解析非常大的 HTML 頁面嗎? 是的,這項服務已針對大型輸入進行優化。

  3. 我可以按照區段提取文本嗎? 是的,結構化提取返回塊級元素。

  4. 是否支持 HTML 郵件? Absolutely — extract body content directly.

  5. 我可以獲得免費試用嗎? 是的,每月可以使用 150 次免費 API 調用。