Análisis de documentos: extraiga texto de un archivo PDF en Java

¿Alguna vez se ha encontrado con una situación en la que necesitaba extraer texto de un archivo PDF mediante programación? La extracción de texto de archivos PDF mediante programación puede ser una tarea compleja, especialmente cuando se trata de documentos grandes. Si es un desarrollador de Java y busca una solución confiable, GroupDocs.Parser Cloud SDK para Java proporciona una manera eficiente de extraer texto de archivos PDF. En este artículo, exploraremos cómo extraer texto de un archivo PDF en Java utilizando la API REST.

En este artículo se tratarán los siguientes temas:

API REST de Java para extraer texto de archivos PDF e instalación de SDK

GroupDocs.Parser Cloud SDK para Java es un kit de desarrollo de software potente, fácil de usar y rico en funciones que proporciona capacidades integrales de análisis de PDF. Con su completo conjunto de API, puede extraer sin esfuerzo texto, metadatos, imágenes y analizar datos de más de 50 tipos de formatos de documentos. También proporciona SDK de C# .NET, Java, PHP, Ruby y Python como sus miembros de la familia de analizadores de documentos para la API de la nube. El SDK se puede integrar en una aplicación basada en Java para simplificar su proceso de desarrollo y mejorar la productividad.

Puede descargar el archivo JAR de la API o instalarlo usando Maven agregando el siguiente repositorio y dependencia en el archivo pom.xml de su proyecto:

Repositorio Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependencia Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A continuación, regístrese para obtener una cuenta de prueba gratuita o compre un plan de suscripción en el sitio web de GroupDocs y obtenga su clave API. Una vez que tenga la identificación del cliente y el secreto del cliente, agregue el siguiente fragmento de código a una aplicación basada en Java:

# Obtenga su client_id y client_secret de https://dashboard.groupdocs.cloud después del registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todo el texto de archivos PDF en Java usando REST API

Extraer texto de archivos PDF en Java usando GroupDocs.Parser Cloud SDK es un proceso sencillo. Aquí está cómo hacerlo:

  • Subir el archivo PDF a la nube
  • Extraer texto de PDF usando Java

Subir el archivo

En primer lugar, cargue el documento PDF en la nube usando el ejemplo de código que se muestra a continuación:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Sube el archivo a Cloud Storage usando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Como resultado, el archivo PDF cargado estará disponible en la sección de archivos de su tablero en la nube.

Extraer texto de un documento PDF en Java

Siga los pasos y un fragmento de código de ejemplo para extraer todo el texto de los archivos PDF mediante programación en Java usando GroupDocs.Parser Cloud SDK para Java:

  • En primer lugar, importe las clases requeridas en su archivo Java.
  • En segundo lugar, cree una instancia de la clase ParseApi.
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • A continuación, establezca la ruta al archivo PDF como entrada.
  • Luego, crea una instancia de la clase TextOptions().
  • A continuación, asigne fileInfo al método setFileInfo.
  • Ahora, cree una instancia de la clase TextRequest() y pase el parámetro TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer todo el texto de un archivo PDF utilizando una API REST en Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cómo extraer texto de un documento PDF en Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar los ajustes
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Puedes ver la salida en la siguiente imagen:

Java Extraer texto de un documento PDF

Extraer texto de un documento PDF en Java

Extraer texto específico de PDF en Java por rango de número de página

Esta sección proporciona instrucciones paso a paso y un fragmento de código de ejemplo para extraer texto específico de un archivo PDF mediante programación en Java:

  • En primer lugar, importe las clases requeridas en su archivo Java.
  • En segundo lugar, cree una instancia de la clase ParseApi.
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • A continuación, establezca la ruta al archivo PDF como entrada.
  • Luego, crea una instancia de la clase TextOptions().
  • Ahora, proporcione los valores setStartPageNumber y setCountPagesToExtract.
  • Luego, asigne fileInfo al método setFileInfo.
  • Ahora, cree una instancia de la clase TextRequest() y pase el parámetro TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto específico de un archivo PDF por número de rango de página en Java usando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Cómo extraer texto de un archivo PDF por número de rango de página en Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar los ajustes
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Analizador de documentos en línea gratuito

¿Cuál es la mejor manera de extraer texto de PDF en línea de forma gratuita? Pruebe un software de análisis de documentos PDF en línea para extraer texto de un PDF. Esta herramienta de análisis de PDF se desarrolla utilizando la biblioteca de análisis de Java mencionada anteriormente.

Conclusión

En conclusión, GroupDocs.Parser Cloud SDK for Java es una herramienta valiosa para los desarrolladores de Java que les permite extraer texto, metadatos e imágenes de manera eficiente. Lo siguiente es lo que has aprendido de este artículo:

  • cómo extraer todo el texto de archivos PDF usando REST API en Java;
  • cargue mediante programación un archivo PDF en la nube usando Java;
  • cómo extraer contenido de PDF en Java usando REST API;
  • y herramienta de extracción de texto PDF en línea para analizar documentos PDF.

Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. El código fuente completo de Java SDK está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog en diferentes formatos de archivo y analizando usando REST API. Por lo tanto, póngase en contacto para obtener las últimas actualizaciones.

Hacer una pregunta

En caso de que tenga alguna duda o confusión sobre cómo extraer texto de archivos PDF, no dude en contactarnos a través de nuestro foro.

preguntas frecuentes

¿Cómo extraigo todo el texto de un archivo PDF usando Java?

Puede extraer todo el texto de un archivo PDF usando GroupDocs.Parser Cloud SDK for Java en sus aplicaciones Java. Este poderoso SDK proporciona una forma eficiente y sencilla de extraer texto de archivos PDF usando Java.

¿Puedo extraer texto de archivos PDF protegidos con contraseña usando GroupDocs.Parser Cloud SDK para Java?

Sí, el SDK admite la extracción de texto de archivos PDF protegidos con contraseña. Puede proporcionar la contraseña como una opción durante el proceso de extracción.

¿Es posible extraer texto de páginas específicas dentro de un archivo PDF?

Sí, GroupDocs.Parser Cloud SDK for Java le permite especificar el número de rango de páginas del que desea extraer el texto. De esta forma, puede extraer fácilmente texto de secciones específicas de un documento PDF.

Ver también

Aquí hay algunos artículos relacionados que pueden resultarle útiles: