Warum Text aus HTML extrahieren?

HTML Dateien enthalten Markup, Stile, Skripte und andere Metadaten. Das Extrahieren von reinem Text ist entscheidend für:

  • Content migration
  • Data scraping
  • Indizierung & Volltextsuche
  • Vorbereitung von Trainingsdaten für KI-/ML-Modelle
  • Dokumentenanalyseströme
  • Verarbeitung von HTML-basierten E-Mails

Unser .NET Cloud-SDK hilft Ihnen, diesen gesamten Prozess mithilfe einer einfachen und leistungsstarken API zu automatisieren.


HTML Text Extraction API

Das GroupDocs.Parser Cloud SDK für .NET ermöglicht die Extraktion von:

  • Visible text from HTML
  • Strukturierter Inhalt (Überschriften, Absätze, Listen)
  • UTF‑8 kodierter Inhalt
  • Text from HTML email bodies
  • Clean text without scripts, styles, and markup

Abgesehen von den oben genannten API funktionen bietet es auch andere Features wie:

  • Entfernt alle HTML-Tags
  • Extracts readable plain text
  • Unterstützt große HTML Dateien
  • Provides text block segmentation
  • Funktioniert mit Cloud-Speicher

Installieren über NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Sie müssen auch ein Konto über GroupDocs Cloud dashboard erstellen, damit Sie die Client-ID und das Client-Secret erhalten können (sie sind notwendig, um die API zu verwenden).


Convert HTML to TXT using C#

Hier ist ein vollständiges Beispiel, das zeigt, wie man Text aus einer HTML-Datei mit dem SDK extrahiert.

Schritt 1 — API initialisieren:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Schritt 2 — Setze HTML-Eingabe:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Schritt 3 — Text extrahieren:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Schritt 4 — Ausgabe speichern:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input HTML file from local drive
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // HTML in den Cloud-Speicher hochladen
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

Text aus HTML mit cURL extrahieren

Alternativ können Sie, wenn Sie die Verwendung von Befehlszeilenoperationen zur Extraktion von Text aus einer HTML-Datei bevorzugen, auch GroupDocs.Parser Cloud mit cURL-Befehlen verwenden.

1. Zugriffstoken generieren:

Die Voraussetzung in diesem Ansatz besteht darin, ein JWT-Zugriffstoken mit Client-Anmeldeinformationen zu generieren. Bitte führen Sie den folgenden Befehl aus, um ein JWT-Token zu generieren.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. HTML-Text extrahieren:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Versuchen Sie den kostenlosen Online-HTML-Text-Extractor

Erleben Sie die Möglichkeiten der .NET REST-API, ohne eine einzige Codezeile zu schreiben. Probieren Sie unsere kostenlose Online-HTML Parser-App aus und extrahieren Sie HTML-Text online.

extract html text

Schlussfolgerung

In diesem Artikel haben Sie gelernt, wie man Text aus HTML mit dem GroupDocs.Parser Cloud SDK für .NET extrahiert. Die API ermöglicht:

  • Clean text extraction
  • Entfernung von HTML-Markup und Skripten
  • Segmentierte strukturierte Extraktion
  • Integration mit C#-Anwendungen
  • Automatisierte Workflows für große HTML-Datensätze

Es ist eine ideale Lösung zum Parsen und Verarbeiten von HTML in Anwendungen der Unternehmensklasse.


Verwandte Artikel


Häufig gestellte Fragen (FAQs)

  1. Entfernt die API automatisch alle Tags? Ja, es wird nur lesbarer Text zurückgegeben.

  2. Kann es sehr große HTML-Seiten parsen? Ja, der Dienst ist für große Eingaben optimiert.

  3. Kann ich Text abschnittsweise extrahieren? Ja, die strukturierte Extraktion gibt Block-Elemente zurück.

  4. Unterstützt es HTML-E-Mails? Absolutely — extract body content directly.

  5. Bekomme ich eine kostenlose Testversion? Ja, 150 kostenlose API-Aufrufe pro Monat sind verfügbar.