Analizador de archivos PDF – Extraer imágenes de archivos PDF en línea en Java

PDF(Portable Document Format) es un formato de archivo ampliamente utilizado para compartir y preservar documentos en línea. A menudo contiene varios tipos de contenido, incluidos texto, imágenes, tablas y más. Extraer contenido específico de archivos PDF, como imágenes, puede ser una tarea desafiante sin herramientas confiables o una biblioteca. Una de estas herramientas es el GroupDocs.Parser Cloud SDK para Java, que proporciona una manera fluida y eficiente de extraer imágenes de archivos PDF. En este artículo, demostraremos cómo extraer imágenes de archivos PDF en Java utilizando REST API.

Los siguientes temas se cubrirán en este artículo:

Java REST API to Separate Images from PDF and SDK Installation

GroupDocs.Parser Cloud SDK for Java es una poderosa y versátil biblioteca de Java que proporciona una forma simple y eficiente de analizar y extraer datos de varios document formats, incluidos archivos PDF. Ofrece una amplia gama de características para el análisis de documentos, permitiendo a los desarrolladores extraer imágenes, texto, metadatos y otros contenidos. GroupDocs.Parser también proporciona SDKs para C#.NET, Java, PHP, Ruby y Python como sus document parser family members para las API de la nube.

Para comenzar, necesitas incluir el GroupDocs.Parser Cloud SDK en tu proyecto Java. Puedes download el archivo JAR de la API o instalarlo usando Maven añadiendo el siguiente repositorio y dependencia en el archivo pom.xml de tu proyecto:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependencia de Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A continuación, necesitas sign up para una cuenta de prueba gratuita o purchase a subscription plan en el sitio web de GroupDocs y get your API key. Una vez que tengas el Client Id y el Client Secret, agrega el siguiente fragmento de código a una aplicación basada en Java:

# Obtén tu clientid y clientsecret de https://dashboard.groupdocs.cloud después del registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todas las imágenes de archivos PDF en Java utilizando REST API

Now, let’s write the steps and an example code snippet to extract images from PDF files using GroupDocs.Parser Cloud SDK for Java:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • Thirdly, create an instance of the FileInfo class.
  • A continuación, establece la ruta al documento PDF de entrada.
  • Entonces, crea una instancia de la clase ImagesOptions().
  • A continuación, asigna fileInfo a la opción de imagen setFileInfo.
  • Ahora, crea una instancia de la clase ImagesRequest() y pasa el parámetro ImagesOptions.
  • Por último, obtén resultados llamando al ParseApi.images() método y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer todas las imágenes de un archivo PDF en línea en Java utilizando REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// How to extract images from a PDF file in Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API de Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare the settings
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extraer Imágenes Específicas de Archivos PDF en Java usando el Número de Página

En esta sección, proporcionaremos pasos y un fragmento de código para extraer imágenes específicas de un archivo PDF programáticamente en Java:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • En tercer lugar, crea una instancia de la FileInfo clase.
  • A continuación, establece la ruta al documento PDF de entrada.
  • Entonces, crea una instancia de la clase ImagesOptions().
  • A continuación, asigna fileInfo a la opción de imagen setFileInfo.
  • Luego, proporcione valores para setStartPageNumber y setCountPagesToExtract.
  • Ahora, crea una instancia de la clase ImagesRequest() y pasa el parámetro ImagesOptions.
  • Por último, obtén resultados llamando al ParseApi.images() método y pasando el parámetro ImagesRequest.

El siguiente ejemplo de código muestra cómo extraer imágenes específicas de un archivo PDF por rango de páginas en Java usando REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extraer imágenes de un archivo PDF en línea por rango de páginas en Java.
public class App {

	public static void main(String[] args) {
		
		// Crea una instancia de la API de Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare the settings
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extractor de Imágenes en Línea Gratis

¿Cuál es la mejor manera de extraer imágenes de PDF en línea de forma gratuita? Por favor, intenta un online PDF File parser para extraer imágenes de archivos PDF. Este software de PDF Parser se desarrolla utilizando la biblioteca de análisis en Java mencionada anteriormente.

Conclusión

En conclusión, el SDK de GroupDocs.Parser Cloud para Java proporciona una solución confiable y eficiente para extraer imágenes de archivos PDF con facilidad. Lo siguiente es lo que has aprendido de este artículo:

  • How to extract all images from PDF files programmatically in Java using REST API;
  • How to extract specific images from PDF documents in Java using REST API;
  • Herramienta de extracción de imágenes en línea para extraer imágenes de documentos PDF.

Además, puedes aprender más sobre el GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección de Referencia de API que te permite visualizar e interactuar con nuestras API directamente a través del navegador. El código fuente completo del SDK de Java está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog sobre diferentes formatos de archivo y cómo analizarlos utilizando la API REST. Así que, por favor, póngase en contacto para las últimas actualizaciones.

Ask a question

En caso de que tenga alguna consulta sobre cómo analizar documentos, no dude en ponerse en contacto con nosotros a través de nuestro forum.

FAQs

How do I parse PDF files using Java?

Para extraer imágenes, texto o metadatos, primero necesitas cargar y analizar el documento PDF utilizando GroupDocs.Parser Cloud SDK. Este proceso implica especificar la ruta del archivo y llamar al método Parse para analizar archivos PDF.

¿El SDK de GroupDocs.Parser Cloud para Java admite otros formatos de archivo además de PDF?

Sí, además de archivos PDF, GroupDocs.Parser Cloud SDK for Java admite la extracción de imágenes de varios formatos de documentos, incluidos Word, Excel, PowerPoint, HTML y muchos más.

Can I extract all images from a PDF file using GroupDocs.Parser Cloud SDK for Java?

Sí, puedes extraer todas las imágenes de un archivo PDF utilizando el GroupDocs.Parser Cloud SDK for Java.

Ver también

Aquí hay algunos artículos relacionados que pueden resultarte útiles: