Analisi del documento: estrai il testo dal file PDF in Java

Ti sei mai imbattuto in una situazione in cui dovevi estrarre il testo da un file PDF a livello di programmazione? L’estrazione di testo da file PDF a livello di codice può essere un’attività complessa, soprattutto quando si tratta di documenti di grandi dimensioni. Se sei uno sviluppatore Java e cerchi una soluzione affidabile, GroupDocs.Parser Cloud SDK per Java fornisce un modo efficiente per estrarre il testo dai file PDF. In questo articolo, esploreremo come estrarre il testo dal file PDF in Java utilizzando l’API REST.

In questo articolo saranno trattati i seguenti argomenti:

API REST Java per estrarre testo da file PDF e installazione SDK

GroupDocs.Parser Cloud SDK for Java è un kit di sviluppo software potente, intuitivo e ricco di funzionalità che fornisce funzionalità complete di analisi PDF. Con il suo set completo di API, puoi estrarre facilmente testo, metadati, immagini e analizzare i dati da oltre 50 tipi di formati di documenti. Fornisce inoltre SDK C# .NET, Java, PHP, Ruby e Python come membri della famiglia del parser di documenti per l’API Cloud. L’SDK può essere integrato in un’applicazione basata su Java per semplificare il processo di sviluppo e migliorare la produttività.

Puoi scaricare il file JAR dell’API o installarlo utilizzando Maven aggiungendo il seguente repository e dipendenza nel file pom.xml del tuo progetto:

Repository esperto:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dipendenza Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Successivamente, registrati per un account di prova gratuito o acquista un piano di abbonamento sul sito web di GroupDocs e ottieni la tua chiave API. Dopo aver ottenuto l’ID client e il segreto client, aggiungi lo snippet di codice seguente a un’applicazione basata su Java:

# Ottieni il tuo client_id e client_secret da https://dashboard.groupdocs.cloud dopo la registrazione.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Come estrarre tutto il testo dai file PDF in Java utilizzando l’API REST

L’estrazione di testo da file PDF in Java utilizzando GroupDocs.Parser Cloud SDK è un processo semplice. Ecco come farlo:

  • Carica il file PDF nel cloud
  • Estrai testo da PDF utilizzando Java

Carica il file

Innanzitutto, carica il documento PDF nel cloud utilizzando l’esempio di codice fornito di seguito:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Carica il file su Cloud Storage utilizzando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Di conseguenza, il file PDF caricato sarà disponibile nella sezione file della dashboard sul cloud.

Estrai testo da un documento PDF in Java

Segui i passaggi e uno snippet di codice di esempio per estrarre tutto il testo dai file PDF in modo programmatico in Java utilizzando GroupDocs.Parser Cloud SDK per Java:

  • Innanzitutto, importa le classi richieste nel tuo file Java.
  • In secondo luogo, crea un’istanza della classe ParseApi.
  • In terzo luogo, crea un’istanza della classe FileInfo.
  • Successivamente, imposta il percorso del file PDF come input.
  • Quindi, crea un’istanza della classe TextOptions().
  • Successivamente, assegna fileInfo al metodo setFileInfo.
  • Ora, crea un’istanza della classe TextRequest() e passa il parametro TextOptions.
  • Infine, ottieni i risultati chiamando il metodo ParseApi.text() e passando il parametro TextRequest.

Il seguente esempio di codice mostra come estrarre tutto il testo da un file PDF utilizzando un’API REST in Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Come estrarre il testo da un documento PDF in Java.
public class App {

	public static void main(String[] args) {
		
		// Crea un'istanza dell'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparare le impostazioni
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Ottieni il percorso del file di output
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Puoi vedere l’output nell’immagine qui sotto:

Java Estrai testo da documento PDF

Estrai testo da documento PDF in Java

Estrai testo specifico da PDF in Java per intervallo di numeri di pagina

Questa sezione fornisce istruzioni dettagliate e un frammento di codice di esempio per l’estrazione di testo specifico da un file PDF a livello di codice in Java:

  • Innanzitutto, importa le classi richieste nel tuo file Java.
  • In secondo luogo, crea un’istanza della classe ParseApi.
  • In terzo luogo, crea un’istanza della classe FileInfo.
  • Successivamente, imposta il percorso del file PDF come input.
  • Quindi, crea un’istanza della classe TextOptions().
  • Ora, fornisci i valori setStartPageNumber e setCountPagesToExtract.
  • Quindi, assegna fileInfo al metodo setFileInfo.
  • Ora, crea un’istanza della classe TextRequest() e passa il parametro TextOptions.
  • Infine, ottieni i risultati chiamando il metodo ParseApi.text() e passando il parametro TextRequest.

Il seguente esempio di codice mostra come estrarre un testo specifico da un file PDF in base al numero dell’intervallo di pagine in Java utilizzando l’API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Come estrarre il testo da un file PDF in base al numero dell'intervallo di pagine in Java.
public class App {

	public static void main(String[] args) {
		
		// Crea un'istanza dell'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparare le impostazioni
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Ottieni il percorso del file di output
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Analizzatore di documenti online gratuito

Qual è il modo migliore per estrarre testo da PDF online gratuitamente? Prova un software di analisi di documenti PDF online per estrarre il testo dal PDF. Questo strumento PDF Parser è sviluppato utilizzando la suddetta libreria di parser Java.

Conclusione

In conclusione, GroupDocs.Parser Cloud SDK for Java è uno strumento prezioso per gli sviluppatori Java che consente di estrarre testo, metadati e immagini in modo efficiente. Quanto segue è ciò che hai imparato da questo articolo:

  • come estrarre tutto il testo dai file PDF utilizzando l’API REST in Java;
  • caricare in modo programmatico un file PDF nel cloud utilizzando Java;
  • come estrarre contenuto da PDF in Java utilizzando l’API REST;
  • e strumento di estrazione del testo PDF online per analizzare i documenti PDF.

Inoltre, puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione API Reference che consente di visualizzare e interagire con le nostre API direttamente tramite il browser. Il codice sorgente completo di Java SDK è disponibile gratuitamente su Github.

Infine, continuiamo a scrivere nuovi articoli di blog su diversi formati di file e l’analisi utilizzando l’API REST. Quindi, ti preghiamo di contattarci per gli ultimi aggiornamenti.

Fai una domanda

In caso di domande o dubbi su come estrarre il testo dai file PDF, non esitate a contattarci tramite il nostro forum.

Domande frequenti

Come estraggo tutto il testo da un file PDF utilizzando Java?

Puoi estrarre tutto il testo da un file PDF utilizzando GroupDocs.Parser Cloud SDK for Java nelle tue applicazioni Java. Questo potente SDK fornisce un modo efficiente e diretto per estrarre il testo dai file PDF utilizzando Java.

Posso estrarre il testo da file PDF protetti da password utilizzando GroupDocs.Parser Cloud SDK per Java?

Sì, l’SDK supporta l’estrazione di testo da file PDF protetti da password. È possibile fornire la password come opzione durante il processo di estrazione.

È possibile estrarre il testo da pagine specifiche all’interno di un file PDF?

Sì, GroupDocs.Parser Cloud SDK for Java consente di specificare il numero dell’intervallo di pagine da cui estrarre il testo. In questo modo, puoi facilmente estrarre il testo da sezioni specifiche di un documento PDF.

Guarda anche

Ecco alcuni articoli correlati che potresti trovare utili: