Document Parsing – Extraer texto de un archivo PDF en Java

¿Alguna vez te has encontrado en una situación en la que necesitabas extraer texto de un PDF archivo programáticamente? Extraer texto de archivos PDF programáticamente puede ser una tarea compleja, especialmente al tratar con documentos grandes. Si eres un desarrollador de Java y buscas una solución confiable, el GroupDocs.Parser Cloud SDK para Java proporciona una manera eficiente de extraer texto de archivos PDF. En este artículo, exploraremos cómo extraer texto de un archivo PDF en Java utilizando la API REST.

Los siguientes temas se tratarán en este artículo:

Java REST API para extraer texto de archivos PDF e instalación del SDK

GroupDocs.Parser Cloud SDK for Java es un potente, fácil de usar y rico en características kit de desarrollo de software que proporciona capacidades integrales de análisis de PDF. Con su conjunto completo de API, puedes extraer sin esfuerzo texto, metadatos, imágenes y analizar datos de más de 50 tipos de document formats. También proporciona SDKs para C# .NET, Java, PHP, Ruby y Python como sus document parser family members para la API de Cloud. El SDK se puede integrar en una aplicación basada en Java para simplificar tu proceso de desarrollo y mejorar la productividad.

Puedes download el archivo JAR de la API o instalarlo usando Maven añadiendo el siguiente repositorio y dependencia en el archivo pom.xml de tu proyecto:

Repositorio de Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A continuación, sign up para una cuenta de prueba gratuita o purchase a subscription plan en el sitio web de GroupDocs y get your API key. Una vez que tenga el Client Id y el Client Secret, agregue el siguiente fragmento de código a una aplicación basada en Java:

# Obten tu clientid y clientsecret de https://dashboard.groupdocs.cloud después del registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todo el texto de archivos PDF en Java utilizando REST API

Extraer texto de archivos PDF en Java utilizando el SDK de GroupDocs.Parser Cloud es un proceso sencillo. Así es como se hace:

  • Subir el archivo PDF a la nube.
  • Extract texto de PDF usando Java.

Subir el Archivo

Primero, sube el documento PDF a la nube utilizando el ejemplo de código que se muestra a continuación:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Sube el archivo a Cloud Storage usando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Como resultado, el archivo PDF subido estará disponible en la [sección de archivos][https://dashboard.groupdocs.cloud/files] de tu panel en la nube.

Extract Text from PDF Document in Java

Sigue los pasos y un ejemplo de código para extraer todo el texto de los archivos PDF programáticamente en Java utilizando el SDK de GroupDocs.Parser Cloud para Java:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • En tercer lugar, crea una instancia de la FileInfo clase.
  • A continuación, establezca la ruta al archivo PDF como entrada.
  • Luego, crea una instancia de la clase TextOptions().
  • A continuación, asigna fileInfo al método setFileInfo.
  • Ahora, crea una instancia de la clase TextRequest() y pasa el parámetro TextOptions.
  • Finalmente, obtén resultados llamando al ParseApi.text() método y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer todo el texto de un archivo PDF utilizando una API REST en Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF document in Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API de Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar la configuración
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Puedes ver la salida en la imagen de abajo:

Java Extraer Texto de Documento PDF

Extraer texto de un documento PDF en Java

Extraer texto específico de un PDF en Java por rango de números de página

Esta sección proporciona instrucciones paso a paso y un fragmento de código de ejemplo para extraer texto específico de un archivo PDF programáticamente en Java:

  • Primero, importa las clases requeridas en tu archivo Java.
  • En segundo lugar, crea una instancia de la ParseApi clase.
  • En tercer lugar, crea una instancia de la FileInfo clase.
  • A continuación, establezca la ruta al archivo PDF como entrada.
  • Luego, crea una instancia de la clase TextOptions().
  • Ahora, proporciona los valores de setStartPageNumber y setCountPagesToExtract.
  • Entonces, asigna fileInfo al método setFileInfo.
  • Ahora, crea una instancia de la clase TextRequest() y pasa el parámetro TextOptions.
  • Finalmente, obtenga resultados llamando al ParseApi.text() método y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto específico de un archivo PDF por número de rango de páginas en Java utilizando REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Cree una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare the settings
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Free Online Document Parser

What is the best way to extract text from PDF online for free? Please try an online PDF document parser software to extract text out of PDF. This PDF Parser tool is developed using the above-mentioned Java parser library.

Conclusión

En conclusión, GroupDocs.Parser Cloud SDK para Java es una herramienta valiosa para los desarrolladores de Java que les permite extraer texto, metadatos e imágenes de manera eficiente. Lo siguiente es lo que has aprendido de este artículo:

  • How to extract all text from PDF files using REST API in Java.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Herramienta de extracción de texto en PDF en línea para analizar documentos PDF.

Además, puedes aprender más sobre el GroupDocs.Parser Cloud API utilizando la documentation. También proporcionamos una sección de API Reference que te permite visualizar e interactuar con nuestras APIs directamente a través del navegador. El código fuente completo del SDK de Java está disponible de forma gratuita en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog sobre diferentes formatos de archivo y análisis utilizando REST API. Así que, por favor, contáctenos para las últimas actualizaciones.

Ask a question

En caso de que tenga alguna consulta o confusión sobre cómo extraer texto de archivos PDF, no dude en contactarnos a través de nuestro forum.

FAQs

How do I extract all text from a PDF file using Java?

Puedes extraer todo el texto de un archivo PDF usando GroupDocs.Parser Cloud SDK for Java en tus aplicaciones Java. Este potente SDK proporciona una forma eficiente y sencilla de extraer texto de archivos PDF utilizando Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Sí, el SDK admite la extracción de texto de archivos PDF protegidos por contraseña. Puede proporcionar la contraseña como una opción durante el proceso de extracción.

¿Es posible extraer texto de páginas específicas dentro de un archivo PDF?

Sí, GroupDocs.Parser Cloud SDK for Java te permite especificar el número de rango de páginas del que deseas extraer texto. De esta manera, puedes extraer fácilmente texto de secciones específicas de un documento PDF.

Ver también

Aquí hay algunos artículos relacionados que puedes encontrar útiles: