Parser de Documentos de Word – Extraer Imágenes de Archivos Word en Línea en Java

El análisis de documentos es una tarea crucial en muchas industrias donde se requiere la extracción de datos de varios formatos de documentos. Al trabajar con Word documentos, extraer imágenes puede ser particularmente útil en casos como análisis de contenido, reconocimiento de imágenes o visualización de datos. Extraer imágenes manualmente de grandes documentos de Word puede ser una tarea que consume mucho tiempo. Por lo tanto, automatizar el proceso de extracción de imágenes puede ahorrarle tiempo y esfuerzo. En este artículo, demostraremos cómo extraer imágenes de documentos de Word programáticamente en Java.

Los siguientes temas se tratarán en este artículo:

Java REST API to Extract Images from Word Documents and SDK Installation

GroupDocs.Parser Cloud SDK for Java es una poderosa biblioteca de Java que proporciona una forma simple y eficiente de analizar y extraer datos de varios document formats, incluidos documentos de Word. Ofrece una amplia gama de características para el análisis de documentos, lo que permite a los desarrolladores extraer imágenes, texto, metadatos y más. GroupDocs.Parser también proporciona C#.NET, Java, PHP, Ruby y Python SDKs como sus document parser family members para las APIs en la nube.

Para empezar, necesitas incluir el GroupDocs.Parser Cloud SDK en tu proyecto Java. Puedes download el archivo JAR de la API o instalarlo usando Maven añadiendo el siguiente repositorio y dependencia en el archivo pom.xml de tu proyecto:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A continuación, necesitas sign up para una cuenta de prueba gratuita o purchase a subscription plan en el sitio web de GroupDocs y get your API key. Una vez que tengas el Client Id y Client Secret, añade el siguiente fragmento de código a una aplicación basada en Java:

# Obtén tu clientid y clientsecret de https://dashboard.groupdocs.cloud después de registrarte.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todas las imágenes de documentos de Word en Java utilizando REST API

Para extraer imágenes de documentos de Word en Java utilizando el SDK de GroupDocs.Parser Cloud, siga estos pasos y un ejemplo de fragmento de código:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • En tercer lugar, crea una instancia de la FileInfo clase.
  • A continuación, establece la ruta al documento de Word de entrada.
  • Luego, crea una instancia de la clase ImagesOptions().
  • A continuación, asigna fileInfo a la opción de imagen setFileInfo.
  • Ahora, crea una instancia de la clase ImagesRequest() y pasa el parámetro ImagesOptions.
  • Por último, obtenga resultados llamando al ParseApi.images() método y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer todas las imágenes de un documento de Word en línea en Java utilizando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// How to extract images from a Word document in Java.
public class App {

	public static void main(String[] args) {
		
		// Crea una instancia de la API de Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare the settings
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraer Imágenes Específicas de un Archivo de Word en Java usando el Número de Página

En esta sección, escribiremos los pasos y un ejemplo de código para extraer imágenes específicas de un documento de Word programáticamente en Java:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • En tercer lugar, crea una instancia de la FileInfo clase.
  • A continuación, establezca la ruta al archivo de Word como entrada.
  • Luego, crea una instancia de la clase ImagesOptions().
  • A continuación, asigna fileInfo a la opción de imagen setFileInfo.
  • Luego, proporcione los valores de setStartPageNumber y setCountPagesToExtract.
  • Ahora, crea una instancia de la clase ImagesRequest() y pasa el parámetro ImagesOptions.
  • Finalmente, obtén resultados llamando al ParseApi.images() método y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer imágenes específicas de un archivo de Word por rango de páginas en Java utilizando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extraer imágenes de un archivo de Word en línea por rango de páginas en Java.
public class App {

	public static void main(String[] args) {
		
		// Cree una instancia de la API de Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepárese la configuración
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extractor de Imágenes en Línea Gratuito

What is the best way to extract images from Word online for free? Please try an online Word document parser to extract images from Word. This Word Parser tool is developed using the above-mentioned Java parser library.

Conclusión

En conclusión, GroupDocs.Parser Cloud SDK es una excelente solución para extraer imágenes de documentos de Word, ahorrando tiempo y esfuerzo mientras se asegura resultados precisos. Lo siguiente es lo que has aprendido de este artículo:

  • how to extract all images from Word DOCX programmatically in Java using REST API;
  • how to extract specific images from Word documents in Java using REST API;
  • y una herramienta de extracción de imágenes en línea para extraer imágenes de documentos de Word.

Adicionalmente, puedes aprender más sobre el GroupDocs.Parser Cloud API utilizando la documentación. También ofrecemos una sección de API Reference que te permite visualizar e interactuar con nuestras APIs directamente a través del navegador. El código fuente completo del SDK de Java está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog sobre diferentes formatos de archivo y analizándolos usando REST API. Así que, por favor, póngase en contacto para las últimas actualizaciones.

Ask a question

En caso de que tenga alguna consulta sobre cómo extraer imágenes de documentos, no dude en ponerse en contacto con nosotros a través de nuestro forum.

FAQs

How do I parse Word documents in Java?

Para extraer imágenes o texto, primero necesita cargar y analizar el documento de Word usando GroupDocs.Parser Cloud SDK. Este proceso implica especificar la ruta del archivo y llamar al método Parse para analizar los documentos.

¿Puede el SDK de GroupDocs.Parser Cloud extraer imágenes de otros formatos de documentos?

Sí, GroupDocs.Parser Cloud SDK for Java admite la extracción de imágenes de varios formatos de documentos, incluidos Word, PDF, Excel, PowerPoint y muchos más.

¿Puede el GroupDocs.Parser Cloud SDK extraer múltiples imágenes de un solo documento de Word?

Sí, el SDK puede extraer múltiples imágenes de un solo documento de Word, proporcionándote todas las imágenes contenidas en el documento.

Does the GroupDocs.Parser Cloud SDK preserve the original image quality during the extraction process?

Sí, el GroupDocs.Parser Cloud SDK for Java preserva la calidad original de la imagen mientras extrae imágenes de documentos de Word.

Ver también

Aquí hay algunos artículos relacionados que puedes encontrar útiles: