Analyseur de document Word - Extraire des images d'un fichier Word en ligne en Java

L’analyse de documents est une tâche cruciale dans de nombreux secteurs où l’extraction de données à partir de divers formats de documents est requise. Lorsque vous travaillez avec des documents Word, l’extraction d’images peut être particulièrement utile dans des cas tels que l’analyse de contenu, la reconnaissance d’images ou la visualisation de données. L’extraction manuelle d’images à partir de documents Word volumineux peut prendre du temps. Par conséquent, l’automatisation du processus d’extraction d’images peut vous faire gagner du temps et des efforts. Dans cet article, nous allons montrer comment extraire des images de documents Word par programmation en Java.

Les sujets suivants seront traités dans cet article :

API Java REST pour extraire des images de documents Word et installation du SDK

GroupDocs.Parser Cloud SDK for Java est une puissante bibliothèque Java qui fournit un moyen simple et efficace d’analyser et d’extraire des données à partir de divers formats de documents, y compris des documents Word. Il offre un large éventail de fonctionnalités pour l’analyse de documents, permettant aux développeurs d’extraire des images, du texte, des métadonnées, etc. GroupDocs.Parser fournit également des SDK C#.NET, Java, PHP, Ruby et Python en tant que membres de la famille d’analyseurs de documents pour les API Cloud.

Pour commencer, vous devez inclure le SDK GroupDocs.Parser Cloud dans votre projet Java. Vous pouvez soit télécharger le fichier JAR de l’API, soit l’installer à l’aide de Maven en ajoutant le référentiel et la dépendance suivants dans le fichier pom.xml de votre projet :

Référentiel Maven :

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dépendance Maven :

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ensuite, vous devez vous inscrire pour un compte d’essai gratuit ou acheter un plan d’abonnement sur le site Web de GroupDocs et obtenir votre clé API. Une fois que vous avez l’ID client et le secret client, ajoutez l’extrait de code ci-dessous à une application basée sur Java :

# Obtenez votre client_id et client_secret depuis https://dashboard.groupdocs.cloud après l'inscription.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Comment extraire toutes les images de documents Word en Java à l’aide de l’API REST

Pour extraire des images de documents Word en Java à l’aide du SDK Cloud GroupDocs.Parser, suivez ces étapes et un exemple d’extrait de code :

  • Tout d’abord, importez les classes requises dans votre fichier Java.
  • Deuxièmement, créez une instance de la classe ParseApi.
  • Troisièmement, créez une instance de la classe FileInfo.
  • Ensuite, définissez le chemin d’accès au document Word d’entrée.
  • Ensuite, créez une instance de la classe ImagesOptions().
  • Ensuite, affectez fileInfo à l’option d’image setFileInfo.
  • Maintenant, créez une instance de la classe ImagesRequest() et passez le paramètre ImagesOptions.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.images() et en transmettant le paramètre ImagesRequest.

L’exemple de code suivant montre comment extraire toutes les images d’un document Word en ligne dans Java à l’aide de l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Comment extraire des images d'un document Word en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparer les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraire des images spécifiques d’un fichier Word en Java à l’aide du numéro de page

Dans cette section, nous allons écrire des étapes et un exemple d’extrait de code pour extraire des images spécifiques d’un document Word par programmation en Java :

  • Tout d’abord, importez les classes requises dans votre fichier Java.
  • Deuxièmement, créez une instance de la classe ParseApi.
  • Troisièmement, créez une instance de la classe FileInfo.
  • Ensuite, définissez le chemin d’accès au fichier Word en tant qu’entrée.
  • Ensuite, créez une instance de la classe ImagesOptions().
  • Ensuite, affectez fileInfo à l’option d’image setFileInfo.
  • Ensuite, fournissez les valeurs setStartPageNumber et setCountPagesToExtract.
  • Maintenant, créez une instance de la classe ImagesRequest() et passez le paramètre ImagesOptions.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.images() et en transmettant le paramètre ImagesRequest.

L’exemple de code suivant montre comment extraire des images spécifiques d’un fichier Word par plage de pages dans Java à l’aide de l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extrayez des images d'un fichier Word en ligne par plage de pages en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparer les réglages
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extracteur d’images en ligne gratuit

Quel est le meilleur moyen d’extraire gratuitement des images de Word en ligne ? Veuillez essayer un analyseur de documents Word en ligne pour extraire des images de Word. Cet outil Word Parser est développé à l’aide de la bibliothèque d’analyseur Java mentionnée ci-dessus.

Conclusion

En conclusion, GroupDocs.Parser Cloud SDK est une excellente solution pour extraire des images de documents Word, économisant du temps et des efforts tout en garantissant des résultats précis. Voici ce que vous avez appris de cet article :

  • comment extraire toutes les images de Word DOCX par programmation en Java à l’aide de l’API REST ;
  • comment extraire des images spécifiques de documents Word en Java à l’aide de l’API REST ;
  • et un outil d’extraction d’images en ligne pour extraire des images de documents Word.

De plus, vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet de Java SDK est disponible gratuitement sur Github.

Enfin, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et à les analyser à l’aide de l’API REST. Alors, s’il vous plaît contactez-nous pour les dernières mises à jour.

poser une question

Si vous avez des questions sur la façon d’extraire des images de documents, n’hésitez pas à nous contacter via notre forum.

FAQ

Comment analyser des documents Word en Java ?

Pour extraire des images ou du texte, vous devez d’abord charger et analyser le document Word à l’aide de GroupDocs.Parser Cloud SDK. Ce processus implique de spécifier le chemin du fichier et d’appeler la méthode Parse pour analyser les documents.

Le SDK GroupDocs.Parser Cloud peut-il extraire des images d’autres formats de document ?

Oui, GroupDocs.Parser Cloud SDK for Java prend en charge l’extraction d’images à partir de divers formats de documents, notamment Word, PDF, Excel, PowerPoint et bien d’autres.

Le SDK GroupDocs.Parser Cloud peut-il extraire plusieurs images d’un seul document Word ?

Oui, le SDK peut extraire plusieurs images d’un seul document Word, vous fournissant toutes les images contenues dans le document.

Le SDK Cloud GroupDocs.Parser préserve-t-il la qualité d’image d’origine pendant le processus d’extraction ?

Oui, le GroupDocs.Parser Cloud SDK for Java préserve la qualité d’image d’origine lors de l’extraction d’images à partir de documents Word.

Voir également

Voici quelques articles connexes qui pourraient vous être utiles :