Extraire du texte PDF à l'aide de Java

Analyse de documents – Extraire du texte d'un fichier PDF en Java

Avez-vous déjà rencontré une situation où vous deviez extraire du texte d’un PDF fichier de manière programmatique ? Extraire du texte à partir de fichiers PDF de manière programmatique peut être une tâche complexe, surtout lorsqu’il s’agit de documents volumineux. Si vous êtes un développeur Java et que vous recherchez une solution fiable, le GroupDocs.Parser Cloud SDK pour Java offre un moyen efficace d’extraire du texte des fichiers PDF. Dans cet article, nous explorerons comment extraire du texte d’un fichier PDF en Java en utilisant l’API REST.

Les sujets suivants seront couverts dans cet article :

Java REST API pour extraire du texte des fichiers PDF et installation du SDK
Comment extraire tout le texte des fichiers PDF en Java en utilisant l’API REST
Extraire du texte spécifique d’un PDF en Java par plage de numéros de page

Java REST API pour extraire du texte à partir de fichiers PDF et installation du SDK

GroupDocs.Parser Cloud SDK for Java est un kit de développement logiciel puissant, convivial et riche en fonctionnalités qui offre des capacités complètes de parsing PDF. Avec son ensemble complet d’APIs, vous pouvez facilement extraire du texte, des métadonnées, des images et analyser des données provenant de plus de 50 types de document formats. Il fournit également des SDK C# .NET, Java, PHP, Ruby et Python en tant que document parser family members pour l’API Cloud. Le SDK peut être intégré dans une application basée sur Java pour simplifier votre processus de développement et améliorer la productivité.

Vous pouvez soit download le fichier JAR de l’API, soit l’installer en utilisant Maven en ajoutant le dépôt et la dépendance suivants dans le fichier pom.xml de votre projet :

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dépendance Maven :

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ensuite, sign up pour un compte d’essai gratuit ou purchase a subscription plan sur le site Web de GroupDocs et get your API key. Une fois que vous avez l’Id du client et le secret du client, ajoutez le code ci-dessous à une application basée sur Java :

# Obtenez votre clientid et clientsecret à partir de https://dashboard.groupdocs.cloud après l'enregistrement.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Comment extraire tout le texte des fichiers PDF en Java en utilisant l’API REST

L’extraction de texte à partir de fichiers PDF en Java à l’aide de GroupDocs.Parser Cloud SDK est un processus simple. Voici comment le faire :

Upload le fichier PDF dans le cloud.
Extraire du texte d’un PDF en utilisant Java.

Upload the File

Firstly, upload the PDF document to the cloud using the code example given below:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Téléchargez le fichier vers le Cloud Storage en utilisant Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

En conséquence, le fichier PDF téléchargé sera disponible dans la [section fichiers][https://dashboard.groupdocs.cloud/files] de votre tableau de bord sur le cloud.

Extraire du texte d’un document PDF en Java

Suivez les étapes et un exemple de code pour extraire tout le texte des fichiers PDF de manière programmatique en Java en utilisant le SDK Cloud GroupDocs.Parser pour Java :

Tout d’abord, importez les classes nécessaires dans votre fichier Java.
Deuxièmement, créez une instance de la ParseApi classe.
Troisièmement, créez une instance de la FileInfo classe.
Ensuite, définissez le chemin vers le fichier PDF comme entrée.
Ensuite, créez une instance de la classe TextOptions().
Ensuite, assignez fileInfo à la méthode setFileInfo.
Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
Enfin, obtenez des résultats en appelant la ParseApi.text() méthode et en passant le paramètre TextRequest.

L’exemple de code suivant montre comment extraire tout le texte d’un fichier PDF en utilisant une API REST en Java :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Comment extraire du texte d'un document PDF en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparer les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Vous pouvez voir le résultat dans l’image ci-dessous :

Java Extraire du texte d'un document PDF — Extraire du texte d’un document PDF en Java

Extraire du texte spécifique d’un PDF en Java par plage de numéros de page

Cette section fournit des instructions étape par étape et un exemple de code pour extraire un texte spécifique d’un fichier PDF par programmation en Java :

Tout d’abord, importez les classes nécessaires dans votre fichier Java.
Deuxièmement, créez une instance de la ParseApi classe.
Troisièmement, créez une instance de la FileInfo classe.
Ensuite, définissez le chemin vers le fichier PDF comme entrée.
Ensuite, créez une instance de la classe TextOptions().
Maintenant, fournissez les valeurs setStartPageNumber et setCountPagesToExtract.
Ensuite, assignez fileInfo à la méthode setFileInfo.
Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
Enfin, obtenez des résultats en appelant la ParseApi.text() méthode et en passant le paramètre TextRequest.

L’échantillon de code suivant montre comment extraire du texte spécifique d’un fichier PDF par numéro de plage de pages en Java en utilisant l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparez les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Free Online Document Parser

What is the best way to extract text from PDF online for free? Please try an online PDF document parser software to extract text out of PDF. This PDF Parser tool is developed using the above-mentioned Java parser library.

Conclusion

En conclusion, GroupDocs.Parser Cloud SDK pour Java est un outil précieux pour les développeurs Java qui vous permet d’extraire efficacement du texte, des métadonnées et des images. Voici ce que vous avez appris de cet article :

How to extract all text from PDF files using REST API in Java.
Programmatically upload a PDF file to the cloud using Java.
How to extract content from PDF in Java using REST API.
Outil d’extraction de texte PDF en ligne pour analyser les documents PDF.

De plus, vous pouvez en apprendre davantage sur l’API Cloud de GroupDocs.Parser en consultant la documentation. Nous proposons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet du SDK Java est disponible gratuitement sur Github.

Enfin, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et l’analyse à l’aide de l’API REST. Donc, veuillez nous contacter pour les dernières mises à jour.

Ask a question

Dans le cas où vous auriez des questions ou des confusions sur la façon d’extraire du texte à partir de fichiers PDF, n’hésitez pas à nous contacter via notre forum.

FAQs

How do I extract all text from a PDF file using Java?

Vous pouvez extraire tout le texte d’un fichier PDF en utilisant GroupDocs.Parser Cloud SDK for Java dans vos applications Java. Ce SDK puissant offre un moyen efficace et simple d’extraire du texte à partir de fichiers PDF en utilisant Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Oui, le SDK prend en charge l’extraction de texte à partir de fichiers PDF protégés par mot de passe. Vous pouvez fournir le mot de passe comme option pendant le processus d’extraction.

Is it possible to extract text from specific pages within a PDF file?

Oui, GroupDocs.Parser Cloud SDK for Java vous permet de spécifier la plage de numéros de pages à partir de laquelle vous souhaitez extraire du texte. De cette façon, vous pouvez facilement extraire du texte à partir de sections spécifiques d’un document PDF.

Voir aussi

Voici quelques articles connexes qui pourraient vous être utiles :

Java REST API pour extraire du texte à partir de fichiers PDF et installation du SDK#

Comment extraire tout le texte des fichiers PDF en Java en utilisant l’API REST#

Upload the File#

Extraire du texte d’un document PDF en Java#

Extraire du texte spécifique d’un PDF en Java par plage de numéros de page#

Free Online Document Parser#

Conclusion#

Ask a question#

FAQs#

Voir aussi#