Si vous avez déjà essayé de copier manuellement des données d’un PDF, vous savez à quel point cela peut être fastidieux, en particulier pour des documents volumineux ou multiples. Avec notre SDK Cloud .NET, vous pouvez automatiser ce processus et extraire du texte à partir de PDF de manière programmatique en utilisant seulement quelques lignes de code C#.
Dans ce tutoriel convivial pour les débutants, vous apprendrez comment extraire du texte à partir de documents PDF en C# .NET, que vous souhaitiez lire tout le texte, extraire par plages de pages spécifiques, ou même analyser du texte à partir de fichiers intégrés à l’intérieur d’un PDF.
- PDF Parser API
- Extraire le texte PDF en utilisant C#
- Extraire du texte d’une plage de pages en utilisant C#
- Extract Text from Attached Documents
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET est une API incroyable qui offre les capacités de manipuler des fichiers PDF en ligne de manière programmatique. Non seulement elle propose des capacités de création ou de conversion de PDF, mais vous pouvez facilement extraire des éléments de fichiers PDF tels que Texte, Image, Pièces jointes, Signets, etc. Dans cet article, nous nous concentrons sur l’extraction de texte à partir de fichiers PDF en utilisant le SDK Cloud .NET.
🔧 Prérequis
Avant de commencer le processus de manipulation de PDF, nous devons nous assurer que les composants suivants sont installés :
- Un compte GroupDocs Cloud – inscrivez-vous pour obtenir votre Client ID et Secret.
- .NET 6.0 ou version supérieure installée.
- Visual Studio ou tout IDE qui prend en charge le développement .NET.
Installation
Installer le SDK directement à partir de NuGet Package Manager :
Install-Package GroupDocs.Parser-Cloud
Extraire le texte PDF en utilisant C#
Veuillez suivre les étapes ci-dessous pour obtenir du texte à partir d’un fichier PDF de manière programmatique :
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Initialisez une instance de ParseApi
en passant un objet de Configuration en tant qu’argument.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Lire le fichier PDF d’entrée depuis le disque local et le télécharger sur le stockage cloud en appelant la méthode UploadFile(...)
de la classe UploadFileRequest.
// Pour plus d'exemples, veuillez visiter https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions : Définit à partir de quel fichier extraire le texte.
- TextRequest : Envoie la demande au cloud.
- parseApi.Text(): Renvoie le contenu textuel extrait.
Extraire du texte d’une plage de pages en utilisant C#
Si vous avez seulement besoin de texte provenant de pages spécifiques (par exemple, pages 2 à 4), vous pouvez spécifier la plage de pages comme ceci :
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Extract Text from Attached Documents
Certains PDF contiennent des pièces jointes comme Word, Excel ou un autre PDF à l’intérieur. Le SDK vous permet d’extraire du texte même à partir de ces documents intégrés :
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Essayez en ligne
Vous ne voulez pas coder encore ? Essayez le extracteur de texte PDF en ligne gratuit. Il est alimenté par l’API REST, vous permettant d’extraire instantanément du texte de n’importe quel document PDF.

Conclusion
Dans ce guide, vous avez appris comment :
- Extraire du texte à partir de fichiers PDF en utilisant C# .NET.
- Téléchargez et analysez des documents sur le cloud.
- Récupérer le texte par plage de pages ou à partir de fichiers joints.
Notre Cloud API facilite l’automatisation de l’extraction de texte PDF pour les développeurs sans avoir à gérer la logique de parsing PDF de bas niveau.