- Pourquoi extraire du texte à partir de HTML ?
- API d’extraction de texte HTML
- Convertir HTML en TXT en utilisant C#
- Extraire du texte à partir de HTML via cURL
- Essayez l’extracteur de texte HTML en ligne gratuit
Pourquoi extraire du texte de HTML ?
HTML les fichiers contiennent des balises, des styles, des scripts et d’autres métadonnées. Extraire du texte propre est essentiel pour :
- Migration de contenu
- Data scraping
- Indexation et recherche en texte intégral
- Préparer des données d’entraînement pour des modèles d’IA/ML
- Flux de travail d’analyse de documents
- Traitement des e-mails basés sur HTML
Notre SDK cloud .NET vous aide à automatiser l’ensemble de ce processus en utilisant une API simple et puissante.
API d’extraction de texte HTML
Le SDK GroupDocs.Parser Cloud pour .NET permet l’extraction de :
- Visible text from HTML
- Contenu structuré (titres, paragraphes, listes)
- UTF‑8 encoded content
- Text from HTML email bodies
- Texte propre sans scripts, styles et balisage
En plus des capacités de l’API mentionnées ci-dessus, elle propose également d’autres fonctionnalités telles que :
- Supprime tous les tags HTML
- Extracts readable plain text
- Prend en charge de grands fichiers HTML.
- Provides text block segmentation
- Fonctionne avec le stockage en nuage
Installer via NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
Vous devez également créer un compte sur GroupDocs Cloud dashboard afin de pouvoir obtenir l’ID client et le secret client (ils sont nécessaires pour utiliser l’API).
Convertir HTML en TXT en utilisant C#
Voici un exemple complet montrant comment extraire du texte d’un fichier HTML en utilisant le SDK.
Étape 1 — Initialiser l’API :
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Étape 2 — Définir l’entrée HTML :
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Étape 3 — Extraire le texte :
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Étape 4 — Enregistrer la sortie :
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Load input HTML file from local drive
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// télécharger HTML sur le stockage cloud
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Optionnellement, vous pouvez envisager d'écrire le contenu dans un fichier texte.
File.WriteAllText("html-output.txt", response.Text);
Extraire du texte d’HTML via cURL
Alternativement, si vous préférez utiliser des opérations en ligne de commande pour extraire du texte d’un fichier HTML, vous pouvez également utiliser GroupDocs.Parser Cloud avec des commandes cURL.
1. Générer un jeton d’accès :
La condition préalable dans cette approche est de générer un jeton d’accès JWT en utilisant des informations d’identification client. Veuillez exécuter la commande suivante pour générer un jeton JWT.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. Extraire le texte HTML :
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
Essayez l’extracteur de texte HTML en ligne gratuit
Découvrez les capacités de l’API REST .NET sans écrire une seule ligne de code. Essayez notre application en ligne gratuite HTML Parser et extrayez du texte HTML en ligne.

Conclusion
Dans cet article, vous avez appris comment extraire du texte à partir de HTML en utilisant le SDK GroupDocs.Parser Cloud pour .NET. L’API permet :
- Extraction de texte propre
- Suppression des balises HTML et des scripts
- Extraction structurée segmentée
- Intégration avec des applications C#
- Flux de travail automatisés pour de grands ensembles de données HTML
C’est une solution idéale pour l’analyse et le traitement de HTML dans des applications de niveau entreprise.
Articles connexes
- Comment enregistrer des photos depuis un email en C# .NET
- Ajouter un filigrane d’image au PDF
- Extraire du texte à partir de PowerPoint en C# .NET
Questions Fréquemment Posées (FAQs)
L’API supprime-t-elle tous les tags automatiquement ? Yes, only readable text is returned.
Peut-il analyser de très grandes pages HTML ? Oui, le service est optimisé pour de grandes entrées.
Puis-je extraire le texte par section ? Oui, l’extraction structurée renvoie des éléments de niveau bloc.
Prend-il en charge les e-mails HTML ? Absolument — extraire le contenu du corps directement.
Puis-je bénéficier d’un essai gratuit ? Oui, 150 appels API gratuits par mois sont disponibles.
