Mengapa Ekstrak Teks dari HTML?

File HTML berisi markup, gaya, skrip, dan metadata lainnya. Mengekstrak teks yang bersih sangat penting untuk:

  • Migrasi konten
  • Pengambilan data
  • Indeksasi & pencarian teks penuh
  • Mempersiapkan data pelatihan untuk model AI/ML
  • Alur kerja analisis dokumen
  • Memproses email berbasis HTML

SDK cloud .NET kami membantu Anda mengotomatiskan seluruh proses ini menggunakan API yang sederhana dan kuat.


API Ekstraksi Teks HTML

SDK GroupDocs.Parser Cloud untuk .NET memungkinkan ekstraksi:

  • Visible text from HTML
  • Konten terstruktur (judul, paragraf, daftar)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Teks bersih tanpa skrip, gaya, dan markup

Selain kemampuan API yang disebutkan di atas, ia juga menawarkan fitur lain seperti:

  • Removes all HTML tags
  • Extracts readable plain text
  • Mendukung file HTML besar
  • Provides text block segmentation
  • Bekerja dengan penyimpanan awan

Install melalui NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Anda juga perlu membuat akun di GroupDocs Cloud dashboard sehingga Anda dapat memperoleh Client ID & Client Secret (mereka diperlukan untuk menggunakan API).


Convert HTML to TXT using C#

Berikut adalah contoh lengkap yang menunjukkan cara mengekstrak teks dari file HTML menggunakan SDK.

Langkah 1 — Inisialisasi API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Langkah 2 — Atur Input HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Langkah 3 — Ekstrak Teks:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Langkah 4 — Simpan Output:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Muat file HTML input dari drive lokal
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // unggah HTML ke penyimpanan awan
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Opsi, Anda dapat mempertimbangkan untuk menulis konten ke file teks
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

Sebagai alternatif, jika Anda lebih suka menggunakan operasi baris perintah untuk mengekstrak teks dari file HTML, maka Anda juga dapat menggunakan GroupDocs.Parser Cloud dengan perintah cURL.

1. Hasilkan Token Akses:

Prasyarat dalam pendekatan ini adalah untuk menghasilkan token akses JWT menggunakan kredensial klien. Silakan jalankan perintah berikut untuk menghasilkan token JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Ekstrak Teks HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Coba Pengambil Teks HTML Daring Gratis

Rasakan kemampuan dari .NET REST API tanpa menulis satu baris kode pun. Coba aplikasi online HTML Parser gratis kami dan ekstrak teks HTML secara online.

extract html text

Kesimpulan

Dalam artikel ini, Anda belajar cara mengekstrak teks dari HTML menggunakan GroupDocs.Parser Cloud SDK untuk .NET. API memungkinkan:

  • Clean text extraction
  • Penghapusan markup HTML dan skrip
  • Ekstraksi terstruktur tersegmentasi
  • Integrasi dengan aplikasi C#
  • Alur kerja otomatis untuk dataset HTML besar

Ini adalah solusi ideal untuk mengurai dan memproses HTML dalam aplikasi kelas enterprise.


Artikel Terkait


Pertanyaan yang Sering Diajukan (FAQs)

  1. Apakah API menghapus semua tag secara otomatis? Yes, only readable text is returned.

  2. Dapatkah itu mem-parsing halaman HTML yang sangat besar? Ya, layanan ini dioptimalkan untuk input besar.

  3. Dapatkah saya mengekstrak teks berdasarkan bagian? Ya, ekstraksi terstruktur mengembalikan elemen tingkat blok.

  4. Apakah ini mendukung email HTML? Absolutely — extract body content directly.

  5. Apakah saya mendapatkan uji coba gratis? Ya, 150 panggilan API gratis per bulan tersedia.