Analyse de document - Extraire le texte d'un fichier PDF en Java

Avez-vous déjà rencontré une situation où vous deviez extraire du texte d’un fichier PDF par programmation ? L’extraction de texte à partir de fichiers PDF par programmation peut être une tâche complexe, en particulier lorsqu’il s’agit de documents volumineux. Si vous êtes un développeur Java et que vous recherchez une solution fiable, le SDK GroupDocs.Parser Cloud pour Java offre un moyen efficace d’extraire du texte à partir de fichiers PDF. Dans cet article, nous allons explorer comment extraire du texte d’un fichier PDF en Java à l’aide de l’API REST.

Les sujets suivants seront traités dans cet article :

API Java REST pour extraire le texte des fichiers PDF et installation du SDK

GroupDocs.Parser Cloud SDK for Java est un kit de développement logiciel puissant, convivial et riche en fonctionnalités qui offre des capacités complètes d’analyse PDF. Grâce à son ensemble complet d’API, vous pouvez facilement extraire du texte, des métadonnées, des images et analyser des données à partir de plus de 50 types de formats de documents. Il fournit également des SDK C# .NET, Java, PHP, Ruby et Python en tant que membres de la famille d’analyseurs de documents pour l’API Cloud. Le SDK peut être intégré dans une application basée sur Java pour simplifier votre processus de développement et améliorer la productivité.

Vous pouvez soit télécharger le fichier JAR de l’API, soit l’installer à l’aide de Maven en ajoutant le référentiel et la dépendance suivants dans le fichier pom.xml de votre projet :

Référentiel Maven :

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dépendance Maven :

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ensuite, inscrivez-vous pour un compte d’essai gratuit ou achetez un plan d’abonnement sur le site Web de GroupDocs et obtenez votre clé API. Une fois que vous avez l’ID client et le secret client, ajoutez l’extrait de code ci-dessous à une application basée sur Java :

# Obtenez votre client_id et client_secret depuis https://dashboard.groupdocs.cloud après l'inscription.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Comment extraire tout le texte de fichiers PDF en Java à l’aide de l’API REST

L’extraction de texte à partir de fichiers PDF en Java à l’aide de GroupDocs.Parser Cloud SDK est un processus simple. Voici comment procéder :

Télécharger le fichier

Tout d’abord, téléchargez le document PDF dans le cloud en utilisant l’exemple de code ci-dessous :

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Télécharger le fichier sur le Cloud Storage à l'aide de Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Par conséquent, le fichier PDF téléchargé sera disponible dans la section des fichiers de votre tableau de bord sur le cloud.

Extraire le texte d’un document PDF en Java

Suivez les étapes et un exemple d’extrait de code pour extraire tout le texte des fichiers PDF par programmation dans Java à l’aide du SDK Cloud GroupDocs.Parser pour Java :

  • Tout d’abord, importez les classes requises dans votre fichier Java.
  • Deuxièmement, créez une instance de la classe ParseApi.
  • Troisièmement, créez une instance de la classe FileInfo.
  • Ensuite, définissez le chemin d’accès au fichier PDF en tant qu’entrée.
  • Ensuite, créez une instance de la classe TextOptions().
  • Ensuite, affectez fileInfo à la méthode setFileInfo.
  • Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.text() et en transmettant le paramètre TextRequest.

L’exemple de code suivant montre comment extraire tout le texte d’un fichier PDF à l’aide d’une API REST en Java :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Comment extraire du texte d'un document PDF en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparer les réglages
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Vous pouvez voir la sortie dans l’image ci-dessous :

Java Extraire le texte d'un document PDF

Extraire le texte d’un document PDF en Java

Extraire un texte spécifique d’un PDF en Java par plage de numéros de page

Cette section fournit des instructions détaillées et un exemple d’extrait de code pour extraire du texte spécifique d’un fichier PDF par programmation en Java :

  • Tout d’abord, importez les classes requises dans votre fichier Java.
  • Deuxièmement, créez une instance de la classe ParseApi.
  • Troisièmement, créez une instance de la classe FileInfo.
  • Ensuite, définissez le chemin d’accès au fichier PDF en tant qu’entrée.
  • Ensuite, créez une instance de la classe TextOptions().
  • Maintenant, fournissez les valeurs setStartPageNumber et setCountPagesToExtract.
  • Ensuite, affectez fileInfo à la méthode setFileInfo.
  • Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.text() et en transmettant le paramètre TextRequest.

L’exemple de code suivant montre comment extraire un texte spécifique d’un fichier PDF par numéro de plage de pages en Java à l’aide de l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Comment extraire du texte d'un fichier PDF par numéro de plage de pages en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparer les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Analyseur de documents en ligne gratuit

Quel est le meilleur moyen d’extraire gratuitement du texte d’un PDF en ligne ? Veuillez essayer un logiciel d’analyse de documents PDF en ligne pour extraire le texte du PDF. Cet outil d’analyse PDF est développé à l’aide de la bibliothèque d’analyse Java mentionnée ci-dessus.

Conclusion

En conclusion, GroupDocs.Parser Cloud SDK for Java est un outil précieux pour les développeurs Java qui vous permet d’extraire efficacement du texte, des métadonnées et des images. Voici ce que vous avez appris de cet article :

  • comment extraire tout le texte des fichiers PDF à l’aide de l’API REST en Java ;
  • télécharger par programmation un fichier PDF dans le cloud à l’aide de Java ;
  • comment extraire le contenu d’un PDF en Java à l’aide de l’API REST ;
  • et un outil d’extraction de texte PDF en ligne pour analyser les documents PDF.

En outre, vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet de Java SDK est disponible gratuitement sur Github.

Enfin, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et à analyser à l’aide de l’API REST. Alors, s’il vous plaît contactez-nous pour les dernières mises à jour.

poser une question

En cas de questions ou de confusion sur la façon d’extraire du texte à partir de fichiers PDF, n’hésitez pas à nous contacter via notre forum.

FAQ

Comment extraire tout le texte d’un fichier PDF à l’aide de Java ?

Vous pouvez extraire tout le texte d’un fichier PDF à l’aide de GroupDocs.Parser Cloud SDK for Java dans vos applications Java. Ce puissant SDK offre un moyen simple et efficace d’extraire du texte de fichiers PDF à l’aide de Java.

Puis-je extraire du texte de fichiers PDF protégés par mot de passe à l’aide de GroupDocs.Parser Cloud SDK for Java ?

Oui, le SDK prend en charge l’extraction de texte à partir de fichiers PDF protégés par mot de passe. Vous pouvez fournir le mot de passe en option pendant le processus d’extraction.

Est-il possible d’extraire du texte de pages spécifiques d’un fichier PDF ?

Oui, GroupDocs.Parser Cloud SDK for Java vous permet de spécifier le numéro de la plage de pages à partir de laquelle vous souhaitez extraire le texte. De cette façon, vous pouvez facilement extraire du texte de sections spécifiques d’un document PDF.

Voir également

Voici quelques articles connexes qui pourraient vous être utiles :