Analizador de documentos de Word: extraiga imágenes de un archivo de Word en línea en Java

El análisis de documentos es una tarea crucial en muchas industrias donde se requiere la extracción de datos de varios formatos de documentos. Cuando se trabaja con documentos de Word, la extracción de imágenes puede ser especialmente útil en casos como el análisis de contenido, el reconocimiento de imágenes o la visualización de datos. La extracción manual de imágenes de grandes documentos de Word puede llevar mucho tiempo. Por lo tanto, automatizar el proceso de extracción de imágenes puede ahorrarle tiempo y esfuerzo. En este artículo, demostraremos cómo extraer imágenes de documentos de Word mediante programación en Java.

En este artículo se tratarán los siguientes temas:

API REST de Java para extraer imágenes de documentos de Word e instalación de SDK

GroupDocs.Parser Cloud SDK para Java es una poderosa biblioteca de Java que proporciona una manera simple y eficiente de analizar y extraer datos de varios formatos de documentos, incluidos los documentos de Word. Ofrece una amplia gama de funciones para el análisis de documentos, lo que permite a los desarrolladores extraer imágenes, texto, metadatos y más. GroupDocs.Parser también proporciona los SDK de C#.NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para las API de la nube.

Para comenzar, debe incluir GroupDocs.Parser Cloud SDK en su proyecto Java. Puede descargar el archivo JAR de la API o instalarlo usando Maven agregando el siguiente repositorio y dependencia en el archivo pom.xml de su proyecto:

Repositorio Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependencia Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A continuación, debe registrarse para obtener una cuenta de prueba gratuita o comprar un plan de suscripción en el sitio web de GroupDocs y obtener su clave API. Una vez que tenga la identificación del cliente y el secreto del cliente, agregue el siguiente fragmento de código a una aplicación basada en Java:

# Obtenga su client_id y client_secret de https://dashboard.groupdocs.cloud después del registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todas las imágenes de documentos de Word en Java usando REST API

Para extraer imágenes de documentos de Word en Java con GroupDocs.Parser Cloud SDK, siga estos pasos y un fragmento de código de ejemplo:

  • En primer lugar, importe las clases requeridas en su archivo Java.
  • En segundo lugar, cree una instancia de la clase ParseApi.
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • A continuación, establezca la ruta al documento de Word de entrada.
  • Luego, crea una instancia de la clase ImagesOptions().
  • A continuación, asigne fileInfo a la opción de imagen setFileInfo.
  • Ahora, cree una instancia de la clase ImagesRequest() y pase el parámetro ImagesOptions.
  • Por último, obtenga resultados llamando al método ParseApi.images() y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer todas las imágenes de un documento de Word en línea en Java usando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Cómo extraer imágenes de un documento de Word en Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar los ajustes
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraiga imágenes específicas de un archivo de Word en Java usando el número de página

En esta sección, escribiremos los pasos y un fragmento de código de ejemplo para extraer imágenes específicas de un documento de Word mediante programación en Java:

  • En primer lugar, importe las clases requeridas en su archivo Java.
  • En segundo lugar, cree una instancia de la clase ParseApi.
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • A continuación, establezca la ruta al archivo de Word como entrada.
  • Luego, crea una instancia de la clase ImagesOptions().
  • A continuación, asigne fileInfo a la opción de imagen setFileInfo.
  • Luego, proporcione los valores setStartPageNumber y setCountPagesToExtract.
  • Ahora, cree una instancia de la clase ImagesRequest() y pase el parámetro ImagesOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.images() y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer imágenes específicas de un archivo de Word por rango de página en Java usando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extraiga imágenes de un archivo de Word en línea por rango de páginas en Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar los ajustes
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extractor de imágenes en línea gratuito

¿Cuál es la mejor manera de extraer imágenes de Word en línea de forma gratuita? Pruebe un analizador de documentos de Word en línea para extraer imágenes de Word. Esta herramienta Word Parser se desarrolla utilizando la biblioteca de análisis de Java mencionada anteriormente.

Conclusión

En conclusión, GroupDocs.Parser Cloud SDK es una excelente solución para extraer imágenes de documentos de Word, ahorrando tiempo y esfuerzo y asegurando resultados precisos. Lo siguiente es lo que has aprendido de este artículo:

  • cómo extraer todas las imágenes de Word DOCX mediante programación en Java usando REST API;
  • cómo extraer imágenes específicas de documentos de Word en Java usando REST API;
  • y herramienta de extracción de imágenes en línea para extraer imágenes de documentos de Word.

Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. El código fuente completo de Java SDK está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog en diferentes formatos de archivo y analizándolos usando REST API. Por lo tanto, póngase en contacto para obtener las últimas actualizaciones.

Hacer una pregunta

En caso de que tenga alguna consulta sobre cómo extraer imágenes de documentos, no dude en contactarnos a través de nuestro foro.

preguntas frecuentes

¿Cómo analizo documentos de Word en Java?

Para extraer imágenes o texto, primero debe cargar y analizar el documento de Word usando GroupDocs.Parser Cloud SDK. Este proceso implica especificar la ruta del archivo y llamar al método Parse para analizar documentos.

¿Puede GroupDocs.Parser Cloud SDK extraer imágenes de otros formatos de documentos?

Sí, GroupDocs.Parser Cloud SDK for Java admite la extracción de imágenes de varios formatos de documentos, incluidos Word, PDF, Excel, PowerPoint y muchos más.

¿Puede GroupDocs.Parser Cloud SDK extraer varias imágenes de un solo documento de Word?

Sí, el SDK puede extraer múltiples imágenes de un solo documento de Word, brindándole todas las imágenes contenidas en el documento.

¿El SDK de GroupDocs.Parser Cloud conserva la calidad de la imagen original durante el proceso de extracción?

Sí, GroupDocs.Parser Cloud SDK for Java conserva la calidad de la imagen original mientras extrae imágenes de documentos de Word.

Ver también

Aquí hay algunos artículos relacionados que pueden resultarle útiles: