Parser de Document Word – Extraire des Images de Fichier Word en Ligne en Java

L’analyse de documents est une tâche cruciale dans de nombreuses industries où l’extraction de données à partir de divers formats de documents est nécessaire. Lorsqu’il s’agit de documents Word, extraire des images peut être particulièrement utile dans des cas tels que l’analyse de contenu, la reconnaissance d’images ou la visualisation de données. Extraire des images manuellement à partir de grands documents Word peut être chronophage. Par conséquent, automatiser le processus d’extraction d’images peut vous faire gagner du temps et des efforts. Dans cet article, nous démontrerons comment extraire des images de documents Word de manière programmatique en Java.

Les sujets suivants seront abordés dans cet article :

Java REST API pour extraire des images de documents Word et installation du SDK

GroupDocs.Parser Cloud SDK for Java est une bibliothèque Java puissante qui offre une manière simple et efficace de parser et extraire des données à partir de divers formats de documents, y compris les documents Word. Elle propose une large gamme de fonctionnalités pour le parsing de documents, permettant aux développeurs d’extraire des images, du texte, des métadonnées, et plus encore. GroupDocs.Parser fournit également des SDK pour C#.NET, Java, PHP, Ruby, et Python comme membres de sa famille de parseurs de documents pour les APIs Cloud.

Pour commencer, vous devez inclure le SDK Cloud GroupDocs.Parser dans votre projet Java. Vous pouvez soit télécharger le fichier JAR de l’API, soit l’installer en utilisant Maven en ajoutant le dépôt et la dépendance suivants dans le fichier pom.xml de votre projet :

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dépendance :

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ensuite, vous devez sign up pour un compte d’essai gratuit ou purchase a subscription plan sur le site Web de GroupDocs et get your API key. Une fois que vous avez l’ID client et le secret client, ajoutez le code ci-dessous à une application basée sur Java :

# Obtenez votre clientid et clientsecret à partir de https://dashboard.groupdocs.cloud après l'enregistrement.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Comment extraire toutes les images des documents Word en Java en utilisant l’API REST

Pour extraire des images de documents Word en Java en utilisant le SDK Cloud GroupDocs.Parser, suivez ces étapes et un exemple de code :

  • Tout d’abord, importez les classes nécessaires dans votre fichier Java.
  • Deuxièmement, créez une instance de la ParseApi classe.
  • Troisièmement, créez une instance de la FileInfo classe.
  • Ensuite, définissez le chemin vers le document Word d’entrée.
  • Ensuite, créez une instance de la classe ImagesOptions().
  • Ensuite, assignez fileInfo à l’option d’image setFileInfo.
  • Maintenant, créez une instance de la classe ImagesRequest() et passez le paramètre ImagesOptions.
  • Enfin, obtenez les résultats en appelant la ParseApi.images() méthode et en passant le paramètre ImagesRequest.

Le code exemple suivant montre comment extraire toutes les images d’un document Word en ligne en Java en utilisant l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// How to extract images from a Word document in Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparez les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtenir le chemin du fichier de sortie
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraire des images spécifiques d’un fichier Word en Java en utilisant le numéro de page

Dans cette section, nous allons écrire des étapes et un exemple de code pour extraire des images spécifiques d’un document Word par programme en Java :

  • Tout d’abord, importez les classes nécessaires dans votre fichier Java.
  • Deuxièmement, créez une instance de la ParseApi classe.
  • Troisièmement, créez une instance de la FileInfo classe.
  • Ensuite, définissez le chemin vers le fichier Word comme entrée.
  • Ensuite, créez une instance de la classe ImagesOptions().
  • Ensuite, assignez fileInfo à l’option d’image setFileInfo.
  • Alors, fournissez les valeurs de setStartPageNumber et setCountPagesToExtract.
  • Maintenant, créez une instance de la classe ImagesRequest() et passez le paramètre ImagesOptions.
  • Enfin, obtenez des résultats en appelant la ParseApi.images() méthode et en passant le paramètre ImagesRequest.

Le code d’exemple suivant montre comment extraire des images spécifiques d’un fichier Word par plage de pages en Java en utilisant l’API REST :

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extracter des images d'un fichier Word en ligne par plage de pages en Java.
public class App {

	public static void main(String[] args) {
		
		// Créer une instance de l'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Préparez les paramètres
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extracteur d’images en ligne gratuit

Quelle est la meilleure façon d’extraire des images de Word en ligne gratuitement ? Veuillez essayer un parseur de document Word en ligne pour extraire des images de Word. Cet outil de parseur Word est développé en utilisant la bibliothèque de parseur Java mentionnée ci-dessus.

Conclusion

En conclusion, le SDK Cloud de GroupDocs.Parser est une excellente solution pour extraire des images des documents Word, économisant du temps et des efforts tout en garantissant des résultats précis. Ce que vous avez appris de cet article est le suivant :

  • how to extract all images from Word DOCX programmatically in Java using REST API;
  • how to extract specific images from Word documents in Java using REST API;
  • et un outil d’extraction d’images en ligne pour extraire des images des documents Word.

De plus, vous pouvez en savoir plus sur l’API Cloud GroupDocs.Parser en consultant la documentation. Nous proposons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet du SDK Java est disponible gratuitement sur Github.

Finalmente, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et à les analyser en utilisant l’API REST. Alors, veuillez nous contacter pour les dernières mises à jour.

Ask a question

Dans le cas où vous auriez des questions sur la façon d’extraire des images des documents, n’hésitez pas à nous contacter via notre forum.

FAQs

How do I parse Word documents in Java?

Pour extraire des images ou du texte, vous devez d’abord charger et analyser le document Word en utilisant GroupDocs.Parser Cloud SDK. Ce processus implique de spécifier le chemin du fichier et d’appeler la méthode Parse pour analyser les documents.

Can GroupDocs.Parser Cloud SDK extraire des images d’autres formats de documents ?

Oui, GroupDocs.Parser Cloud SDK for Java prend en charge l’extraction d’images à partir de divers formats de document, y compris Word, PDF, Excel, PowerPoint, et bien d’autres.

Can the GroupDocs.Parser Cloud SDK extract multiple images from a single Word document?

Oui, le SDK peut extraire plusieurs images d’un seul document Word, vous fournissant toutes les images contenues dans le document.

Does the GroupDocs.Parser Cloud SDK preserve the original image quality during the extraction process?

Oui, le GroupDocs.Parser Cloud SDK for Java préserve la qualité originale des images tout en extrayant des images des documents Word.

Voir aussi

Voici quelques articles connexes que vous pourriez trouver utiles :