Estrai testo da PDF usando Python

Potrebbe essere necessario leggere ed estrarre il testo dai documenti PDF nelle applicazioni Python. Quindi, come sviluppatore Python, puoi facilmente estrarre tutto il testo dai documenti PDF in modo programmatico sul cloud. Questo articolo spiegherà come estrarre il testo dai documenti PDF utilizzando un’API REST in Python.

In questo articolo saranno trattati i seguenti argomenti:

Document Parser REST API e Python SDK

Per estrarre il testo da un documento PDF, utilizzerò l’API Python SDK of GroupDocs.Parser Cloud. Consente a Python di ottenere testo da pdf e di analizzare i dati da tutti i tipi di documenti più diffusi. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Node.js come membri della famiglia di analizzatori di documenti per l’API Cloud.

Puoi installare GroupDocs.Parser Cloud nel tuo progetto Python con pip (package installer for python) usando il seguente comando nella console:

pip install groupdocs_parser_cloud

Si prega di ottenere l’ID cliente e il segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID cliente e segreto, aggiungi il codice come mostrato di seguito:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Estrai testo da PDF utilizzando un’API REST in Python

Puoi estrarre il testo dai documenti PDF seguendo i semplici passaggi indicati di seguito:

Carica il documento

Prima di tutto, carica il documento PDF per ottenere il testo da pdf python usando l’esempio di codice riportato di seguito:

# inizializzazione dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Di conseguenza, il file PDF caricato (sample.pdf) sarà disponibile nella sezione file della dashboard sul cloud. Ora sei pronto per estrarre il contenuto dal pdf.

Estrai testo da documenti PDF usando Python

Puoi facilmente estrarre il testo da pdf con python a livello di codice seguendo i passaggi indicati di seguito.

  • Crea un’istanza di ParseApi
  • Definisci opzioni di testo
  • Imposta il percorso del file PDF
  • Crea richiesta di testo
  • Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre tutto il testo dal documento PDF utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Estrai il testo dall'intero documento

Estrai il testo dall’intero documento

Leggi testo per numero di pagina da documenti PDF usando Python

È possibile estrarre facilmente il testo da pagine specifiche di un file PDF in modo programmatico seguendo i passaggi indicati di seguito.

  • Crea un’istanza di ParseApi
  • Definisci opzioni di testo
  • Fornire il percorso del file PDF
  • Imposta il numero della pagina iniziale
  • impostare il conteggio delle pagine da estrarre
  • Crea richiesta di testo
  • Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre parole da pdf in Python in base all’intervallo di numeri di pagina utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Estrarre il testo dal file pdf da un intervallo di numeri di pagina

Estrarre il testo da un intervallo di numeri di pagina

Ottieni testo da documento allegato con PDF utilizzando Python

È possibile estrarre il testo da un documento all’interno di un contenitore, disponibile come allegato in un file PDF a livello di codice seguendo i passaggi indicati di seguito.

  • Crea un’istanza di ParseApi
  • Definisci opzioni di testo
  • Imposta il percorso del file PDF
  • Definisci ContainerItemInfo
  • Fornire il percorso relativo del documento interno
  • Imposta il numero della pagina iniziale
  • impostare il conteggio delle pagine da estrarre
  • Crea richiesta di testo
  • Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre il testo da un documento all’interno di un documento PDF utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Estrai testo da un documento all'interno di un contenitore

Estrai testo da un documento all’interno di un contenitore

Prova in linea

Come estrarre il testo da pdf online gratuitamente? Si prega di provare il seguente strumento di analisi PDF online gratuito per estrarre il testo dal pdf gratuitamente. Questo estrattore di testo pdf è sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/pdf

Conclusione

In questo articolo, hai imparato come estrarre il testo dai documenti PDF sul cloud. Questo articolo ha anche spiegato come caricare a livello di codice un file PDF sul cloud e l’estrattore di testo PDF online. Inoltre, abbiamo anche imparato a estrarre solo il testo dal pdf per numero di pagina e l’estrazione del testo Python dal pdf dal documento allegato.

Puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità sull’estrazione del testo pdf e l’estrazione del testo da python pdf, non esitate a contattarci sul forum.

Guarda anche