Análise de Documentos – Extrair Texto de Arquivo PDF em Java

Você já encontrou uma situação em que precisava extrair texto de um PDF programaticamente? Extrair texto de arquivos PDF programaticamente pode ser uma tarefa complexa, especialmente ao lidar com documentos grandes. Se você é um desenvolvedor Java e está procurando uma solução confiável, o GroupDocs.Parser Cloud SDK para Java oferece uma maneira eficiente de extrair texto de arquivos PDF. Neste artigo, vamos explorar como extrair texto de um arquivo PDF em Java usando a API REST.

Os seguintes tópicos serão abordados neste artigo:

Java REST API para Extrair Texto de Arquivos PDF e Instalação do SDK

GroupDocs.Parser Cloud SDK for Java é um kit de desenvolvimento de software poderoso, amigável e rico em recursos que oferece capacidades abrangentes de análise de PDF. Com seu conjunto abrangente de APIs, você pode extrair facilmente texto, metadados, imagens e analisar dados de mais de 50 tipos de document formats. Ele também fornece SDKs para C# .NET, Java, PHP, Ruby e Python como seus document parser family members para a API em nuvem. O SDK pode ser integrado em uma aplicação baseada em Java para simplificar seu processo de desenvolvimento e aumentar a produtividade.

Você pode download o arquivo JAR da API ou instalá-lo usando o Maven adicionando o seguinte repositório e dependência no arquivo pom.xml do seu projeto:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

A seguir, sign up para uma conta de teste gratuita ou purchase a subscription plan no site do GroupDocs e get your API key. Uma vez que você tenha o Client Id e Client Secret, adicione o trecho de código abaixo a uma aplicação baseada em Java:

# Obtenha seu clientid e clientsecret em https://dashboard.groupdocs.cloud após o registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Como Extrair Todo o Texto de Arquivos PDF em Java usando REST API

Extraindo texto de arquivos PDF em Java usando o GroupDocs.Parser Cloud SDK é um processo simples. Aqui está como fazê-lo:

  • Upload o arquivo PDF para a nuvem.
  • Extrair texto de PDF usando Java.

Carregar o Arquivo

Primeiro, faça o upload do documento PDF para a nuvem usando o exemplo de código fornecido abaixo:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Carregar arquivo para o Cloud Storage usando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Como resultado, o arquivo PDF enviado estará disponível na [seção de arquivos][https://dashboard.groupdocs.cloud/files] do seu painel no cloud.

Extrair Texto de um Documento PDF em Java

Siga os passos e um exemplo de trecho de código para extrair todo o texto dos arquivos PDF programaticamente em Java usando o GroupDocs.Parser Cloud SDK para Java:

  • Primeiro, importe as classes necessárias em seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF como entrada.
  • Então, crie uma instância da classe TextOptions().
  • Em seguida, atribua fileInfo ao método setFileInfo.
  • Agora, crie uma instância da classe TextRequest() e passe o parâmetro TextOptions.
  • Finalmente, obtenha resultados chamando o ParseApi.text() método e passando o parâmetro TextRequest.

O seguinte exemplo de código mostra como extrair todo o texto de um arquivo PDF usando uma API REST em Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Como extrair texto de um documento PDF em Java.
public class App {

	public static void main(String[] args) {
		
		// Criar uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Obter caminho do arquivo de saída
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Você pode ver o output na imagem abaixo:

Java Extrair Texto de Documento PDF

Extrair Texto de Documento PDF em Java

Extrair Texto Específico de PDF em Java por Faixa de Números de Página

Esta seção fornece instruções passo a passo e um exemplo de código para extrair texto específico de um arquivo PDF programaticamente em Java:

  • Primeiro, importe as classes necessárias em seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF como entrada.
  • Então, crie uma instância da classe TextOptions().
  • Agora, forneça os valores de setStartPageNumber e setCountPagesToExtract.
  • Então, atribua fileInfo ao método setFileInfo.
  • Agora, crie uma instância da classe TextRequest() e passe o parâmetro TextOptions.
  • Finalmente, obtenha resultados chamando o ParseApi.text() método e passando o parâmetro TextRequest.

O seguinte exemplo de código mostra como extrair texto específico de um arquivo PDF por número de intervalo de página em Java usando a API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// How to extract text from a PDF file by page range number in Java.
public class App {

	public static void main(String[] args) {
		
		// Criar uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Free Online Document Parser

Qual é a melhor maneira de extrair texto de PDF online de graça? Por favor, tente um software de parser de documento PDF online para extrair texto de PDF. Esta ferramenta de parser de PDF foi desenvolvida utilizando a biblioteca de parser Java mencionada acima.

Conclusão

Em conclusão, o GroupDocs.Parser Cloud SDK para Java é uma ferramenta valiosa para desenvolvedores Java que permite extrair texto, metadados e imagens de forma eficiente. A seguir está o que você aprendeu neste artigo:

  • Como extrair todo o texto de arquivos PDF usando REST API em Java.
  • Programmatically upload a PDF file to the cloud using Java.
  • How to extract content from PDF in Java using REST API.
  • Ferramenta de extração de texto em PDF online para analisar documentos PDF.

Além disso, você pode aprender mais sobre o GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção de Referência da API que permite visualizar e interagir com nossas APIs diretamente através do navegador. O código fonte completo do SDK Java está disponível gratuitamente no Github.

Finalmente, continuamos escrevendo novos artigos de blog sobre diferentes formatos de arquivos e análise usando REST API. Portanto, entre em contato para as últimas atualizações.

Ask a question

Caso você tenha alguma dúvida ou confusão sobre como extrair texto de arquivos PDF, fique à vontade para nos contatar através do nosso forum.

FAQs

How do I extract all text from a PDF file using Java?

Você pode extrair todo o texto de um arquivo PDF usando GroupDocs.Parser Cloud SDK for Java em suas aplicações Java. Este poderoso SDK fornece uma maneira eficiente e direta de extrair texto de arquivos PDF usando Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Sim, o SDK suporta a extração de texto de arquivos PDF protegidos por senha. Você pode fornecer a senha como uma opção durante o processo de extração.

É possível extrair texto de páginas específicas dentro de um arquivo PDF?

Sim, GroupDocs.Parser Cloud SDK for Java permite que você especifique o número do intervalo de páginas do qual deseja extrair texto. Dessa forma, você pode extrair facilmente texto de seções específicas de um documento PDF.

Veja Também

Aqui estão alguns artigos relacionados que você pode achar úteis: