Dlaczego wyodrębniać tekst z HTML?

Pliki HTML zawierają znaczniki, style, skrypty i inne metadane. Wydobycie czystego tekstu jest niezbędne dla:

  • Migracja zawartości
  • Data scraping
  • Indeksowanie i wyszukiwanie pełnotekstowe
  • Przygotowywanie danych treningowych dla modeli AI/ML
  • Przepływy pracy analizy dokumentów
  • Przetwarzanie e-maili opartych na HTML

Nasz .NET cloud SDK pomaga w automatyzacji całego tego procesu za pomocą prostego i potężnego interfejsu API.


HTML Text Extraction API

SDK GroupDocs.Parser Cloud dla .NET umożliwia ekstrakcję:

  • Widoczny tekst z HTML
  • Strukturalna treść (nagłówki, akapity, listy)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Czysty tekst bez skryptów, stylów i znaczników

Oprócz zdolności API wymienionych powyżej, oferuje także inne funkcje, takie jak:

  • Usuwa wszystkie tagi HTML
  • Extracts readable plain text
  • Obsługuje duże pliki HTML
  • Provides text block segmentation
  • Działa z przechowywaniem w chmurze

Zainstaluj przez NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Musisz także utworzyć konto w GroupDocs Cloud dashboard, aby uzyskać identyfikator klienta i sekretny klucz klienta (są one niezbędne do korzystania z API).


Convert HTML to TXT using C#

Oto kompletny przykład pokazujący, jak wyodrębnić tekst z pliku HTML przy użyciu SDK.

Krok 1 — Zainicjuj API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Krok 2 — Ustaw wejście HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Krok 3 — Wyodrębnij tekst:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Krok 4 — Zapisz wynik:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input HTML file from local drive
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // prześlij HTML do chmury magazynowej
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Opcjonalnie, możesz rozważyć zapisanie zawartości do pliku tekstowego.
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

Alternatywnie, jeśli wolisz używać operacji w wierszu poleceń do wyodrębniania tekstu z pliku HTML, możesz również użyć GroupDocs.Parser Cloud z poleceniami cURL.

1. Wygeneruj token dostępu:

Warunkiem wstępnym w tym podejściu jest wygenerowanie tokena dostępu JWT przy użyciu poświadczeń klienta. Proszę wykonać następujące polecenie, aby wygenerować token JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Wyodrębnij tekst HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Spróbuj darmowego internetowego narzędzia do ekstrakcji tekstu HTML

Doświadcz możliwości .NET REST API bez pisania nawet jednej linijki kodu. Wypróbuj naszą darmową aplikację HTML Parser i ekstraktuj tekst HTML online.

extract html text

Wnioski

W tym artykule dowiedziałeś się, jak wyodrębnić tekst z HTML za pomocą GroupDocs.Parser Cloud SDK dla .NET. API umożliwia:

  • Clean text extraction
  • Usunięcie znacznika HTML i skryptów
  • Segmentowana strukturalna ekstrakcja
  • Integracja z aplikacjami C#
  • Zautomatyzowane przepływy pracy dla dużych zbiorów danych HTML

To jest idealne rozwiązanie do analizowania i przetwarzania HTML w aplikacjach klasy enterprise.


Powiązane artykuły


Najczęściej Zadawane Pytania (FAQ)

  1. Czy API automatycznie usuwa wszystkie tagi? Tak, zwracany jest tylko czytelny tekst.

  2. Czy potrafi sparsować bardzo duże strony HTML? Tak, usługa jest zoptymalizowana pod kątem dużych danych wejściowych.

  3. Czy mogę wyodrębnić tekst sekcyjnie? Tak, strukturalne wydobycie zwraca elementy na poziomie bloku.

  4. Czy obsługuje e-maile w formacie HTML? Absolutnie — wyodrębnij treść ciała bezpośrednio.

  5. Czy mogę otrzymać bezpłatny okres próbny? Tak, dostępnych jest 150 darmowych wywołań API miesięcznie.