Document Parsing – Estrai testo da file PDF in Java

Hai mai incontrato una situazione in cui avevi bisogno di estrarre testo da un PDF file in modo programmatico? Estrarre testo da file PDF in modo programmatico può essere un compito complesso, specialmente quando si trattano documenti di grandi dimensioni. Se sei uno sviluppatore Java e stai cercando una soluzione affidabile, il GroupDocs.Parser Cloud SDK per Java offre un modo efficiente per estrarre testo dai file PDF. In questo articolo, esploreremo come estrarre testo da un file PDF in Java utilizzando REST API.

I seguenti argomenti saranno trattati in questo articolo:

Java REST API per estrarre testo da file PDF e installazione SDK

GroupDocs.Parser Cloud SDK for Java è un kit di sviluppo software potente, facile da usare e ricco di funzionalità che fornisce capacità complete di parsing PDF. Con il suo set completo di API, puoi estrarre senza sforzo testo, metadati, immagini e analizzare dati da oltre 50 tipi di document formats. Fornisce anche SDK per C# .NET, Java, PHP, Ruby e Python come suoi document parser family members per l’API Cloud. L’SDK può essere integrato in un’applicazione basata su Java per semplificare il tuo processo di sviluppo e migliorare la produttività.

Puoi download il file JAR dell’API o installarlo usando Maven aggiungendo il seguente repository e dipendenza nel file pom.xml del tuo progetto:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dipendenza Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Next, sign up per un account di prova gratuito o purchase a subscription plan sul sito web di GroupDocs e get your API key. Una volta ottenuti il Client Id e il Client Secret, aggiungi il seguente frammento di codice a un’applicazione basata su Java:

# Ottieni il tuo clientid e clientsecret da https://dashboard.groupdocs.cloud dopo la registrazione.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Come estrarre tutto il testo dai file PDF in Java utilizzando l’API REST

L’estrazione di testo da file PDF in Java utilizzando il GroupDocs.Parser Cloud SDK è un processo semplice. Ecco come fare:

  • Upload il file PDF sul cloud.
  • Extract estrarre testo da PDF usando Java.

Carica il file

Prima di tutto, carica il documento PDF nel cloud utilizzando l’esempio di codice fornito qui sotto:

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Carica il file nel Cloud Storage utilizzando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Di conseguenza, il file PDF caricato sarà disponibile nella [files section][https://dashboard.groupdocs.cloud/files] del tuo dashboard sul cloud.

Estrai testo da un documento PDF in Java

Segui i passaggi e un esempio di codice per estrarre tutto il testo dai file PDF in modo programmatico in Java utilizzando il GroupDocs.Parser Cloud SDK per Java:

  • Innanzitutto, importa le classi necessarie nel tuo file Java.
  • In secondo luogo, crea un’istanza della classe ParseApi.
  • In terzo luogo, crea un’istanza della FileInfo classe.
  • Successivamente, imposta il percorso del file PDF come input.
  • Quindi, crea un’istanza della classe TextOptions().
  • Successivamente, assegna fileInfo al metodo setFileInfo.
  • Ora, crea un’istanza della classe TextRequest() e passa il parametro TextOptions.
  • Infine, ottieni i risultati chiamando il ParseApi.text() metodo e passando il parametro TextRequest.

Il seguente esempio di codice mostra come estrarre tutto il testo da un file PDF utilizzando un’API REST in Java:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Come estrarre testo da un documento PDF in Java.
public class App {

	public static void main(String[] args) {
		
		// Crea un'istanza dell'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepara le impostazioni
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Puoi vedere l’output nell’immagine sottostante:

Java Estrai Testo da Documento PDF

Estrai testo da un documento PDF in Java

Estrai Testo Specifico da PDF in Java per Intervallo di Numeri di Pagina

Questa sezione fornisce istruzioni passo-passo e un esempio di codice per estrarre testo specifico da un file PDF programmaticamente in Java:

  • Innanzitutto, importa le classi necessarie nel tuo file Java.
  • In secondo luogo, crea un’istanza della classe ParseApi.
  • In terzo luogo, crea un’istanza della FileInfo classe.
  • Successivamente, imposta il percorso del file PDF come input.
  • Quindi, crea un’istanza della classe TextOptions().
  • Ora, fornire i valori di setStartPageNumber e setCountPagesToExtract.
  • Poi, assegna fileInfo al metodo setFileInfo.
  • Ora, crea un’istanza della classe TextRequest() e passa il parametro TextOptions.
  • Infine, ottieni risultati chiamando il ParseApi.text() metodo e passando il parametro TextRequest.

Il seguente esempio di codice mostra come estrarre testo specifico da un file PDF in base al numero di range di pagine in Java utilizzando REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Come estrarre testo da un file PDF per intervallo di numeri di pagina in Java.
public class App {

	public static void main(String[] args) {
		
		// Crea un'istanza dell'API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Prepara le impostazioni
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// Get output file path
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Free Online Document Parser

Qual è il modo migliore per estrarre testo da PDF online gratuitamente? Prova un online PDF document parser software per estrarre testo da PDF. Questo strumento PDF Parser è stato sviluppato utilizzando la libreria parser Java sopra menzionata.

Conclusione

In conclusione, il GroupDocs.Parser Cloud SDK per Java è uno strumento prezioso per gli sviluppatori Java che consente di estrarre testo, metadati e immagini in modo efficiente. Di seguito è riportato ciò che hai imparato da questo articolo:

  • Come estrarre tutto il testo dai file PDF utilizzando REST API in Java.
  • Programmaticamente carica un file PDF nel cloud utilizzando Java.
  • Come estrarre contenuto da PDF in Java utilizzando REST API.
  • Strumento online per l’estrazione di testo da PDF per analizzare documenti PDF.

Inoltre, puoi saperne di più sull’API Cloud di GroupDocs.Parser consultando la documentazione. Forniamo anche una sezione API Reference che ti consente di visualizzare e interagire direttamente con le nostre API attraverso il browser. Il codice sorgente completo del SDK Java è liberamente disponibile su Github.

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Fai una domanda

In caso tu abbia domande o confusione su come estrarre testo da file PDF, non esitare a contattarci tramite il nostro forum.

FAQs

How do I extract all text from a PDF file using Java?

Puoi estrarre tutto il testo da un file PDF utilizzando GroupDocs.Parser Cloud SDK for Java nelle tue applicazioni Java. Questo potente SDK offre un modo efficiente e semplice per estrarre testo da file PDF utilizzando Java.

Can I extract text from password-protected PDF files using GroupDocs.Parser Cloud SDK for Java?

Sì, il SDK supporta l’estrazione di testo da file PDF protetti da password. Puoi fornire la password come un’opzione durante il processo di estrazione.

È possibile estrarre testo da pagine specifiche all’interno di un file PDF?

Sì, GroupDocs.Parser Cloud SDK per Java ti consente di specificare l’intervallo di numeri di pagina da cui desideri estrarre il testo. In questo modo, puoi facilmente estrarre testo da sezioni specifiche di un documento PDF.

Vedi anche

Ecco alcuni articoli correlati che potresti trovare utili: