La conversion de documents Word (DOC, DOCX) en format texte est une exigence courante dans l’extraction de données, l’indexation ou les flux de travail d’automatisation. Avec l’aide du SDK Cloud .NET, vous pouvez facilement extraire du texte des documents Word pour le traitement du langage naturel, l’analyse de contenu ou le stockage de grandes données textuelles sans dépendre de Microsoft Word.

API de conversion de Word en texte

Le GroupDocs.Parser Cloud SDK pour .NET offre des outils puissants pour analyser, extraire et convertir des documents Word au format texte. Il prend en charge les formats de documents DOC, DOCX et d’autres formats populaires, offrant aux développeurs un moyen rapide de créer des convertisseurs de document en texte ou de docx en txt dans des applications .NET.

Conditions préalables

  • Inscrivez-vous sur GroupDocs Cloud Dashboard.
  • Obtenez votre identifiant client et votre secret client. Pour plus d’informations, veuillez consulter cet article.
  • Installer .NET 6.0 ou une version ultérieure et Visual Studio.
  • Installer le SDK à partir des packages NuGet :
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

Convertir DOCX en TXT en C#

Voici un exemple simple démontrant comment convertir DOCX en TXT ou extraire du texte à partir de documents Word en utilisant le SDK GroupDocs.Parser Cloud pour .NET.

1.: Initialiser la configuration de l’API

var config = new Configuration
{
    ClientId = "YOUR_CLIENT_ID",
    ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);

2.: Appelez la méthode Parse pour extraire le contenu textuel du document. Initialisez un objet de l’objet ImagesRequest où nous passons l’instance de la classe ImagesOptions comme argument.

var response = parserApi.Parse(new ParseRequest("sample.docx"));

3.: Enregistrez le texte extrait en tant que fichier .txt localement pour un traitement ultérieur.

File.WriteAllText("output.txt", response.Text);
  • 💡 Vous pouvez également extraire du texte de pages ou de paragraphes spécifiques en définissant des filtres dans le paramètre ParseOptions.
// Pour d'autres exemples, veuillez visiter https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
    // upload the input Word document to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.docx" }
};

var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

Extraire du texte d’un document Word via cURL

Si vous préférez les opérations en ligne de commande, vous pouvez utiliser l’API REST directement via cURL pour convertir DOC ou DOCX en texte en ligne.

Étape 1 : Obtenir le jeton d’accès :

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Étape 2 : Convertir DOCX en TXT :

curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
  -H "accept: application/json" \
  -H "authorization: Bearer {ACCESS_TOKEN}" \
  -o "{outputFile}.txt"

Remplacez {inputFile} par le nom de votre fichier Word et {outputFile} par le nom du fichier TXT souhaité pour l’enregistrer localement.

Convertisseur DOCX en TXT en ligne

Si vous souhaitez essayer rapidement la conversion de Word en texte en ligne, consultez le convertisseur gratuit de DOCX à TXT. Il vous permet de télécharger et de convertir instantanément n’importe quel fichier Word en format texte directement dans votre navigateur — aucune installation ou codage requis.

Extracteur d'images gratuites

Résumé

Nous avons exploré que notre SDK Cloud .NET fournit une solution fiable, basée sur le cloud, pour extraire du texte à partir de documents Word et les convertir en format TXT. Il simplifie l’extraction de données, l’analyse de contenu et l’intégration avec systèmes de traitement de documents d’entreprise.

Pourquoi utiliser GroupDocs.Parser Cloud ?

  • Prend en charge les formats DOC et DOCX.
  • Intégration facile avec les applications .NET.
  • 100 % basé sur le cloud — pas besoin de Microsoft Word.
  • Générer une sortie TXT propre prête pour le traitement ou le stockage des données.

Questions Fréquemment Posées (FAQ)

  1. Can I convert DOCX to TXT using C#?
  • Oui. Le SDK vous permet d’extraire et d’enregistrer du texte à partir de documents Word directement au format TXT.
  1. Cela prend-il en charge les fichiers DOC ainsi que les fichiers DOCX?
  • Oui. Les deux formats de fichier sont entièrement pris en charge pour la conversion et l’extraction de texte.
  1. Is Microsoft Word required for this conversion?
  • Non. La conversion est effectuée entièrement sur la plateforme GroupDocs Cloud.
  1. Puis-je sélectionner des sections ou des pages spécifiques pour l’extraction ?
  • Oui. Vous pouvez définir des plages de pages ou des régions pour l’extraction de texte partielle.

Liens utiles

Articles connexes