Extract Text from HTML | HTML Text Parser

Dlaczego wydobywać tekst z HTML?
API do ekstrakcji tekstu HTML
Convert HTML to TXT using C#
Wyodrębnij tekst z HTML za pomocą cURL
Spróbuj darmowego internetowego narzędzia do ekstrakcji tekstu HTML

Dlaczego wyodrębniać tekst z HTML?

Pliki HTML zawierają znaczniki, style, skrypty i inne metadane. Wydobycie czystego tekstu jest niezbędne dla:

Migracja zawartości
Data scraping
Indeksowanie i wyszukiwanie pełnotekstowe
Przygotowywanie danych treningowych dla modeli AI/ML
Przepływy pracy analizy dokumentów
Przetwarzanie e-maili opartych na HTML

Nasz .NET cloud SDK pomaga w automatyzacji całego tego procesu za pomocą prostego i potężnego interfejsu API.

HTML Text Extraction API

SDK GroupDocs.Parser Cloud dla .NET umożliwia ekstrakcję:

Widoczny tekst z HTML
Strukturalna treść (nagłówki, akapity, listy)
UTF‑8 encoded content
Text from HTML email bodies
Czysty tekst bez skryptów, stylów i znaczników

Oprócz zdolności API wymienionych powyżej, oferuje także inne funkcje, takie jak:

Usuwa wszystkie tagi HTML
Extracts readable plain text
Obsługuje duże pliki HTML
Provides text block segmentation
Działa z przechowywaniem w chmurze

Zainstaluj przez NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Musisz także utworzyć konto w GroupDocs Cloud dashboard, aby uzyskać identyfikator klienta i sekretny klucz klienta (są one niezbędne do korzystania z API).

Convert HTML to TXT using C#

Oto kompletny przykład pokazujący, jak wyodrębnić tekst z pliku HTML przy użyciu SDK.

Krok 1 — Zainicjuj API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Krok 2 — Ustaw wejście HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Krok 3 — Wyodrębnij tekst:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Krok 4 — Zapisz wynik:

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input HTML file from local drive
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // prześlij HTML do chmury magazynowej
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Opcjonalnie, możesz rozważyć zapisanie zawartości do pliku tekstowego.
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

Alternatywnie, jeśli wolisz używać operacji w wierszu poleceń do wyodrębniania tekstu z pliku HTML, możesz również użyć GroupDocs.Parser Cloud z poleceniami cURL.

1. Wygeneruj token dostępu:

Warunkiem wstępnym w tym podejściu jest wygenerowanie tokena dostępu JWT przy użyciu poświadczeń klienta. Proszę wykonać następujące polecenie, aby wygenerować token JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Wyodrębnij tekst HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Spróbuj darmowego internetowego narzędzia do ekstrakcji tekstu HTML

Doświadcz możliwości .NET REST API bez pisania nawet jednej linijki kodu. Wypróbuj naszą darmową aplikację HTML Parser i ekstraktuj tekst HTML online.

Wnioski

W tym artykule dowiedziałeś się, jak wyodrębnić tekst z HTML za pomocą GroupDocs.Parser Cloud SDK dla .NET. API umożliwia:

Clean text extraction
Usunięcie znacznika HTML i skryptów
Segmentowana strukturalna ekstrakcja
Integracja z aplikacjami C#
Zautomatyzowane przepływy pracy dla dużych zbiorów danych HTML

To jest idealne rozwiązanie do analizowania i przetwarzania HTML w aplikacjach klasy enterprise.

Powiązane artykuły

Najczęściej Zadawane Pytania (FAQ)

Czy API automatycznie usuwa wszystkie tagi? Tak, zwracany jest tylko czytelny tekst.
Czy potrafi sparsować bardzo duże strony HTML? Tak, usługa jest zoptymalizowana pod kątem dużych danych wejściowych.
Czy mogę wyodrębnić tekst sekcyjnie? Tak, strukturalne wydobycie zwraca elementy na poziomie bloku.
Czy obsługuje e-maile w formacie HTML? Absolutnie — wyodrębnij treść ciała bezpośrednio.
Czy mogę otrzymać bezpłatny okres próbny? Tak, dostępnych jest 150 darmowych wywołań API miesięcznie.

Dlaczego wyodrębniać tekst z HTML?#

HTML Text Extraction API#

Zainstaluj przez NuGet#

Convert HTML to TXT using C##

Krok 1 — Zainicjuj API:#

Krok 2 — Ustaw wejście HTML:#

Krok 3 — Wyodrębnij tekst:#

Krok 4 — Zapisz wynik:#

Extract Text from HTML via cURL#

1. Wygeneruj token dostępu:#

2. Wyodrębnij tekst HTML:#

Spróbuj darmowego internetowego narzędzia do ekstrakcji tekstu HTML#

Wnioski#

Powiązane artykuły#

Najczęściej Zadawane Pytania (FAQ)#