- Mengapa Mengekstrak Teks dari HTML?
- API Ekstraksi Teks HTML
- Convert HTML to TXT menggunakan C#
- Extract Text from HTML via cURL
- Coba Pengextract Teks HTML Daring Gratis
Mengapa Ekstrak Teks dari HTML?
File HTML berisi markup, gaya, skrip, dan metadata lainnya. Mengekstrak teks yang bersih sangat penting untuk:
- Migrasi konten
- Pengambilan data
- Indeksasi & pencarian teks penuh
- Mempersiapkan data pelatihan untuk model AI/ML
- Alur kerja analisis dokumen
- Memproses email berbasis HTML
SDK cloud .NET kami membantu Anda mengotomatiskan seluruh proses ini menggunakan API yang sederhana dan kuat.
API Ekstraksi Teks HTML
SDK GroupDocs.Parser Cloud untuk .NET memungkinkan ekstraksi:
- Visible text from HTML
- Konten terstruktur (judul, paragraf, daftar)
- UTF‑8 encoded content
- Text from HTML email bodies
- Teks bersih tanpa skrip, gaya, dan markup
Selain kemampuan API yang disebutkan di atas, ia juga menawarkan fitur lain seperti:
- Removes all HTML tags
- Extracts readable plain text
- Mendukung file HTML besar
- Provides text block segmentation
- Bekerja dengan penyimpanan awan
Install melalui NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
Anda juga perlu membuat akun di GroupDocs Cloud dashboard sehingga Anda dapat memperoleh Client ID & Client Secret (mereka diperlukan untuk menggunakan API).
Convert HTML to TXT using C#
Berikut adalah contoh lengkap yang menunjukkan cara mengekstrak teks dari file HTML menggunakan SDK.
Langkah 1 — Inisialisasi API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Langkah 2 — Atur Input HTML:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Langkah 3 — Ekstrak Teks:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Langkah 4 — Simpan Output:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Muat file HTML input dari drive lokal
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// unggah HTML ke penyimpanan awan
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Opsi, Anda dapat mempertimbangkan untuk menulis konten ke file teks
File.WriteAllText("html-output.txt", response.Text);
Extract Text from HTML via cURL
Sebagai alternatif, jika Anda lebih suka menggunakan operasi baris perintah untuk mengekstrak teks dari file HTML, maka Anda juga dapat menggunakan GroupDocs.Parser Cloud dengan perintah cURL.
1. Hasilkan Token Akses:
Prasyarat dalam pendekatan ini adalah untuk menghasilkan token akses JWT menggunakan kredensial klien. Silakan jalankan perintah berikut untuk menghasilkan token JWT.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. Ekstrak Teks HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
Coba Pengambil Teks HTML Daring Gratis
Rasakan kemampuan dari .NET REST API tanpa menulis satu baris kode pun. Coba aplikasi online HTML Parser gratis kami dan ekstrak teks HTML secara online.

Kesimpulan
Dalam artikel ini, Anda belajar cara mengekstrak teks dari HTML menggunakan GroupDocs.Parser Cloud SDK untuk .NET. API memungkinkan:
- Clean text extraction
- Penghapusan markup HTML dan skrip
- Ekstraksi terstruktur tersegmentasi
- Integrasi dengan aplikasi C#
- Alur kerja otomatis untuk dataset HTML besar
Ini adalah solusi ideal untuk mengurai dan memproses HTML dalam aplikasi kelas enterprise.
Artikel Terkait
- Bagaimana Cara Menyimpan Foto dari Email di C# .NET
- Tambahkan Watermark Gambar ke PDF
- Ekstrak Teks dari PowerPoint dalam C# .NET
Pertanyaan yang Sering Diajukan (FAQs)
Apakah API menghapus semua tag secara otomatis? Yes, only readable text is returned.
Dapatkah itu mem-parsing halaman HTML yang sangat besar? Ya, layanan ini dioptimalkan untuk input besar.
Dapatkah saya mengekstrak teks berdasarkan bagian? Ya, ekstraksi terstruktur mengembalikan elemen tingkat blok.
Apakah ini mendukung email HTML? Absolutely — extract body content directly.
Apakah saya mendapatkan uji coba gratis? Ya, 150 panggilan API gratis per bulan tersedia.
