Extraire du texte à partir de fichiers PDF en utilisant C# .NET REST API

Si vous avez déjà essayé de copier manuellement des données d’un PDF, vous savez à quel point cela peut être fastidieux, en particulier pour des documents volumineux ou multiples. Avec notre SDK Cloud .NET, vous pouvez automatiser ce processus et extraire du texte à partir de PDF de manière programmatique en utilisant seulement quelques lignes de code C#.

Dans ce tutoriel convivial pour les débutants, vous apprendrez comment extraire du texte à partir de documents PDF en C# .NET, que vous souhaitiez lire tout le texte, extraire par plages de pages spécifiques, ou même analyser du texte à partir de fichiers intégrés à l’intérieur d’un PDF.

PDF Parser API
Extraire le texte PDF en utilisant C#
Extraire du texte d’une plage de pages en utilisant C#
Extract Text from Attached Documents

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET est une API incroyable qui offre les capacités de manipuler des fichiers PDF en ligne de manière programmatique. Non seulement elle propose des capacités de création ou de conversion de PDF, mais vous pouvez facilement extraire des éléments de fichiers PDF tels que Texte, Image, Pièces jointes, Signets, etc. Dans cet article, nous nous concentrons sur l’extraction de texte à partir de fichiers PDF en utilisant le SDK Cloud .NET.

🔧 Prérequis

Avant de commencer le processus de manipulation de PDF, nous devons nous assurer que les composants suivants sont installés :

Un compte GroupDocs Cloud – inscrivez-vous pour obtenir votre Client ID et Secret.
.NET 6.0 ou version supérieure installée.
Visual Studio ou tout IDE qui prend en charge le développement .NET.

Installation

Installer le SDK directement à partir de NuGet Package Manager :

Install-Package GroupDocs.Parser-Cloud

Extraire le texte PDF en utilisant C#

Veuillez suivre les étapes ci-dessous pour obtenir du texte à partir d’un fichier PDF de manière programmatique :

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Initialisez une instance de ParseApi en passant un objet de Configuration en tant qu’argument.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Lire le fichier PDF d’entrée depuis le disque local et le télécharger sur le stockage cloud en appelant la méthode UploadFile(...) de la classe UploadFileRequest.

// Pour plus d'exemples, veuillez visiter https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);

TextOptions : Définit à partir de quel fichier extraire le texte.
TextRequest : Envoie la demande au cloud.
parseApi.Text(): Renvoie le contenu textuel extrait.

Extraire du texte d’une plage de pages en utilisant C#

Si vous avez seulement besoin de texte provenant de pages spécifiques (par exemple, pages 2 à 4), vous pouvez spécifier la plage de pages comme ceci :

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Extract Text from Attached Documents

Certains PDF contiennent des pièces jointes comme Word, Excel ou un autre PDF à l’intérieur. Le SDK vous permet d’extraire du texte même à partir de ces documents intégrés :

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Essayez en ligne

Vous ne voulez pas coder encore ? Essayez le extracteur de texte PDF en ligne gratuit. Il est alimenté par l’API REST, vous permettant d’extraire instantanément du texte de n’importe quel document PDF.

Conclusion

Dans ce guide, vous avez appris comment :

Extraire du texte à partir de fichiers PDF en utilisant C# .NET.
Téléchargez et analysez des documents sur le cloud.
Récupérer le texte par plage de pages ou à partir de fichiers joints.

Notre Cloud API facilite l’automatisation de l’extraction de texte PDF pour les développeurs sans avoir à gérer la logique de parsing PDF de bas niveau.

Extraire du texte d'un PDF avec C# .NET

PDF Parser API

🔧 Prérequis

Extraire le texte PDF en utilisant C#

Extraire du texte d’une plage de pages en utilisant C#

Extract Text from Attached Documents

Essayez en ligne

Conclusion

Liens utiles

Voir Aussi

PDF Parser API#

🔧 Prérequis#

Extraire le texte PDF en utilisant C##

Extraire du texte d’une plage de pages en utilisant C##

Extract Text from Attached Documents#

Essayez en ligne#

Conclusion#

Liens utiles#

Voir Aussi#

PDF Parser API

🔧 Prérequis

Extraire le texte PDF en utilisant C#

Extraire du texte d’une plage de pages en utilisant C#

Extract Text from Attached Documents

Essayez en ligne

Conclusion

Liens utiles

Voir Aussi