Análise de documentos - Extrair texto de arquivo PDF em Java

Você já se deparou com uma situação em que precisou extrair texto de um arquivo PDF programaticamente? Extrair texto de arquivos PDF programaticamente pode ser uma tarefa complexa, especialmente ao lidar com documentos grandes. Se você é um desenvolvedor Java e procura uma solução confiável, o GroupDocs.Parser Cloud SDK para Java fornece uma maneira eficiente de extrair texto de arquivos PDF. Neste artigo, exploraremos como extrair texto de um arquivo PDF em Java usando a API REST.

Os seguintes tópicos serão abordados neste artigo:

Java REST API para extrair texto de arquivos PDF e instalação do SDK

GroupDocs.Parser Cloud SDK for Java é um kit de desenvolvimento de software poderoso, fácil de usar e rico em recursos que fornece recursos abrangentes de análise de PDF. Com seu conjunto abrangente de APIs, você pode facilmente extrair texto, metadados, imagens e analisar dados de mais de 50 tipos de formatos de documento. Ele também fornece SDKs C# .NET, Java, PHP, Ruby e Python como seus membros da família de analisadores de documentos para a Cloud API. O SDK pode ser integrado a um aplicativo baseado em Java para simplificar seu processo de desenvolvimento e aumentar a produtividade.

Você pode baixar o arquivo JAR da API ou instalá-lo usando o Maven adicionando o seguinte repositório e dependência ao arquivo pom.xml do seu projeto:

Repositório Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependência do Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Em seguida, inscreva-se para obter uma conta de avaliação gratuita ou adquira um plano de assinatura no site do GroupDocs e obtenha sua chave de API. Depois de obter o ID do cliente e o segredo do cliente, adicione o trecho de código abaixo a um aplicativo baseado em Java:

# Obtenha seu client_id e client_secret em https://dashboard.groupdocs.cloud após o registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Como extrair todo o texto de arquivos PDF em Java usando a API REST

Extrair texto de arquivos PDF em Java usando GroupDocs.Parser Cloud SDK é um processo direto. Veja como fazer:

  • Upload o arquivo PDF para a nuvem
  • Extrair texto de PDF usando Java

Carregar o arquivo

Em primeiro lugar, carregue o documento PDF para a nuvem usando o exemplo de código abaixo:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Carregar arquivo para o Cloud Storage usando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Como resultado, o arquivo PDF carregado estará disponível na seção de arquivos do seu painel na nuvem.

Extrair texto de documento PDF em Java

Siga as etapas e um trecho de código de exemplo para extrair todo o texto dos arquivos PDF programaticamente em Java usando GroupDocs.Parser Cloud SDK para Java:

  • Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF como entrada.
  • Em seguida, crie uma instância da classe TextOptions().
  • Em seguida, atribua fileInfo ao método setFileInfo.
  • Agora, crie uma instância da classe TextRequest() e passe o parâmetro TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() e passando o parâmetro TextRequest.

O exemplo de código a seguir mostra como extrair todo o texto de um arquivo PDF usando uma API REST em Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Como extrair texto de um documento PDF em Java.
public class App {

	public static void main(String[] args) {
		
		// Crie uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Obter caminho do arquivo de saída
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Você pode ver a saída na imagem abaixo:

Java Extrair texto de documento PDF

Extrair texto de documento PDF em Java

Extrair texto específico de PDF em Java por intervalo de número de página

Esta seção fornece instruções passo a passo e um trecho de código de exemplo para extrair texto específico de um arquivo PDF programaticamente em Java:

  • Em primeiro lugar, importe as classes necessárias para o seu arquivo Java.
  • Em segundo lugar, crie uma instância da classe ParseApi.
  • Em terceiro lugar, crie uma instância da classe FileInfo.
  • Em seguida, defina o caminho para o arquivo PDF como entrada.
  • Em seguida, crie uma instância da classe TextOptions().
  • Agora, forneça os valores setStartPageNumber e setCountPagesToExtract.
  • Em seguida, atribua fileInfo ao método setFileInfo.
  • Agora, crie uma instância da classe TextRequest() e passe o parâmetro TextOptions.
  • Por fim, obtenha os resultados chamando o método ParseApi.text() e passando o parâmetro TextRequest.

O exemplo de código a seguir mostra como extrair um texto específico de um arquivo PDF por número de intervalo de páginas em Java usando a API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Como extrair texto de um arquivo PDF por número de intervalo de páginas em Java.
public class App {

	public static void main(String[] args) {
		
		// Crie uma instância da API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepare as configurações
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Obter caminho do arquivo de saída
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Analisador de documentos on-line gratuito

Qual é a melhor maneira de extrair texto de PDF online gratuitamente? Tente um software analisador de documento PDF on-line para extrair o texto do PDF. Esta ferramenta de análise de PDF foi desenvolvida usando a biblioteca de análise Java mencionada acima.

Conclusão

Em conclusão, GroupDocs.Parser Cloud SDK para Java é uma ferramenta valiosa para desenvolvedores Java que permite extrair texto, metadados e imagens com eficiência. O seguinte é o que você aprendeu com este artigo:

  • como extrair todo o texto de arquivos PDF usando API REST em Java;
  • carregar programaticamente um arquivo PDF para a nuvem usando Java;
  • como extrair conteúdo de PDF em Java usando API REST;
  • e ferramenta online de extração de texto PDF para analisar documentos PDF.

Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. O código-fonte completo do Java SDK está disponível gratuitamente no Github.

Por fim, continuamos escrevendo novos artigos de blog em diferentes formatos de arquivo e analisando usando a API REST. Portanto, entre em contato para obter as atualizações mais recentes.

Faça uma pergunta

Caso você tenha alguma dúvida ou confusão sobre como extrair texto de arquivos PDF, sinta-se à vontade para nos contatar através do nosso fórum.

perguntas frequentes

Como faço para extrair todo o texto de um arquivo PDF usando Java?

Você pode extrair todo o texto de um arquivo PDF usando GroupDocs.Parser Cloud SDK for Java em seus aplicativos Java. Este poderoso SDK fornece uma maneira eficiente e direta de extrair texto de arquivos PDF usando Java.

Posso extrair texto de arquivos PDF protegidos por senha usando GroupDocs.Parser Cloud SDK para Java?

Sim, o SDK oferece suporte à extração de texto de arquivos PDF protegidos por senha. Você pode fornecer a senha como uma opção durante o processo de extração.

É possível extrair texto de páginas específicas dentro de um arquivo PDF?

Sim, GroupDocs.Parser Cloud SDK for Java permite que você especifique o número do intervalo de páginas do qual deseja extrair o texto. Dessa forma, você pode facilmente extrair texto de seções específicas de um documento PDF.

Veja também

Aqui estão alguns artigos relacionados que podem ser úteis: