HTMLからテキストを抽出する理由は何ですか?

HTML ファイルにはマークアップ、スタイル、スクリプト、およびその他のメタデータが含まれています。クリーンテキストを抽出することは、以下のために重要です:

  • コンテンツ移行
  • データスクレイピング
  • インデックス作成と全文検索
  • AI/MLモデルのトレーニングデータの準備
  • 文書分析ワークフロー
  • HTMLベースのメールの処理

私たちの .NET クラウド SDK は、シンプルで強力な API を使用してこの全プロセスを自動化するのを助けます。


HTML テキスト抽出 API

GroupDocs.Parser Cloud SDK for .NET は、次の抽出を可能にします:

  • Visible text from HTML
  • 構造化されたコンテンツ(見出し、段落、リスト)
  • UTF‑8 エンコードされたコンテンツ
  • Text from HTML email bodies
  • スクリプト、スタイル、およびマークアップのないクリーンなテキスト

上記で述べたAPIの機能以外にも、次のような他の機能を提供しています:

  • すべてのHTMLタグを削除します
  • Extracts readable plain text
  • 大きなHTMLファイルをサポートしています
  • Provides text block segmentation
  • クラウドストレージと連携します

NuGet経由でインストールする

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

GroupDocs Cloud dashboard でアカウントを作成する必要がありますので、Client ID と Client Secret を取得できます(それらは API を使用するために必要です)。


C#{#extract-html-text-csharp}を使用してHTMLをTXTに変換する

ここでは、SDKを使用してHTMLファイルからテキストを抽出する方法を示す完全な例を示します。

ステップ 1 — API を初期化します:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

ステップ 2 — HTML 入力を設定します:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

ステップ 3 — テキストを抽出する:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

ステップ 4 — 出力を保存:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// ローカルドライブから入力HTMLファイルを読み込む
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // クラウドストレージにHTMLをアップロードする
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

HTMLからテキストをcURLで抽出する

また、HTMLファイルからテキストを抽出するためにコマンドライン操作を使用することを好む場合は、cURLコマンドで GroupDocs.Parser Cloud を使用することもできます。

1. アクセストークンを生成する:

このアプローチの前提条件は、クライアント資格情報を使用してJWTアクセストークンを生成することです。JWTトークンを生成するには、以下のコマンドを実行してください。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. HTML テキストを抽出します:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

無料オンラインHTMLテキスト抽出ツールを試してください

.NET REST APIの機能を1行のコードも書かずに体験してください。私たちの無料オンライン HTML Parser アプリを試して、オンラインでHTMLテキストを抽出しましょう。

extract html text

結論

この記事では、GroupDocs.Parser Cloud SDK for .NETを使用してHTMLからテキストを抽出する方法を学びました。 APIは次のことを可能にします:

  • クリーンテキスト抽出
  • HTMLマークアップとスクリプトの削除
  • セグメント化された構造抽出
  • C# アプリケーションとの統合
  • 大規模HTMLデータセットのための自動化されたワークフロー

それは、エンタープライズグレードのアプリケーションにおけるHTMLの解析と処理のための理想的なソリューションです。


関連する記事


よくある質問 (FAQs)

  1. APIはすべてのタグを自動的に削除しますか? はい、読み取り可能なテキストのみが返されます。

  2. 非常に大きなHTMLページを解析できますか? はい、そのサービスは大規模な入力に最適化されています。

  3. テキストをセクションごとに抽出できますか? はい、構造化抽出はブロックレベルの要素を返します。

  4. HTMLメールをサポートしていますか? Absolutely — extract body content directly.

  5. 無料トライアルはありますか? はい、月に150回の無料APIコールが利用可能です。