Estrai testo da documenti PDF utilizzando un'API REST in Python

Potrebbe essere necessario leggere ed estrarre il testo dai documenti PDF nelle applicazioni Python. Quindi, come sviluppatore Python, puoi facilmente estrarre tutto il testo dai documenti PDF in modo programmatico sul cloud. Questo articolo spiegherà come estrarre il testo dai documenti PDF utilizzando un’API REST in Python.

In questo articolo saranno trattati i seguenti argomenti:

Document Parser REST API e Python SDK
Estrai testo da PDF utilizzando un’API REST

Document Parser REST API e Python SDK

Per estrarre il testo da un documento PDF, utilizzerò l’API Python SDK of GroupDocs.Parser Cloud. Consente a Python di ottenere testo da pdf e di analizzare i dati da tutti i tipi di documenti più diffusi. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Node.js come membri della famiglia di analizzatori di documenti per l’API Cloud.

Puoi installare GroupDocs.Parser Cloud nel tuo progetto Python con pip (package installer for python) usando il seguente comando nella console:

pip install groupdocs_parser_cloud

Si prega di ottenere l’ID cliente e il segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID cliente e segreto, aggiungi il codice come mostrato di seguito:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Estrai testo da PDF utilizzando un’API REST in Python

Puoi estrarre il testo dai documenti PDF seguendo i semplici passaggi indicati di seguito:

Carica il file PDF sul Cloud
Estrai testo da documenti PDF usando Python
Leggi testo per numero di pagina da documenti PDF usando Python
Ottieni testo da documento allegato con PDF utilizzando Python

Carica il documento

Prima di tutto, carica il documento PDF per ottenere il testo da pdf python usando l’esempio di codice riportato di seguito:

# inizializzazione dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Di conseguenza, il file PDF caricato (sample.pdf) sarà disponibile nella sezione file della dashboard sul cloud. Ora sei pronto per estrarre il contenuto dal pdf.

Estrai testo da documenti PDF usando Python

Puoi facilmente estrarre il testo da pdf con python a livello di codice seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definisci opzioni di testo
Imposta il percorso del file PDF
Crea richiesta di testo
Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre tutto il testo dal documento PDF utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Estrai il testo dall'intero documento — Estrai il testo dall’intero documento

Leggi testo per numero di pagina da documenti PDF usando Python

È possibile estrarre facilmente il testo da pagine specifiche di un file PDF in modo programmatico seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definisci opzioni di testo
Fornire il percorso del file PDF
Imposta il numero della pagina iniziale
impostare il conteggio delle pagine da estrarre
Crea richiesta di testo
Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre parole da pdf in Python in base all’intervallo di numeri di pagina utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Estrarre il testo dal file pdf da un intervallo di numeri di pagina — *Estrarre il testo da un intervallo di numeri di pagina*

Ottieni testo da documento allegato con PDF utilizzando Python

È possibile estrarre il testo da un documento all’interno di un contenitore, disponibile come allegato in un file PDF a livello di codice seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definisci opzioni di testo
Imposta il percorso del file PDF
Definisci ContainerItemInfo
Fornire il percorso relativo del documento interno
Imposta il numero della pagina iniziale
impostare il conteggio delle pagine da estrarre
Crea richiesta di testo
Ottieni risultati chiamando il metodo ParseApi.text().

L’esempio di codice seguente mostra come estrarre il testo da un documento all’interno di un documento PDF utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni di testo
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

Estrai testo da un documento all'interno di un contenitore — *Estrai testo da un documento all’interno di un contenitore*

Prova in linea

Come estrarre il testo da pdf online gratuitamente? Si prega di provare il seguente strumento di analisi PDF online gratuito per estrarre il testo dal pdf gratuitamente. Questo estrattore di testo pdf è sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/pdf

Conclusione

In questo articolo, hai imparato come estrarre il testo dai documenti PDF sul cloud. Questo articolo ha anche spiegato come caricare a livello di codice un file PDF sul cloud e l’estrattore di testo PDF online. Inoltre, abbiamo anche imparato a estrarre solo il testo dal pdf per numero di pagina e l’estrazione del testo Python dal pdf dal documento allegato.

Puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità sull’estrazione del testo pdf e l’estrazione del testo da python pdf, non esitate a contattarci sul forum.

Guarda anche

Una soluzione API REST per analizzare documenti ed estrarre dati

Document Parser REST API e Python SDK#

Estrai testo da PDF utilizzando un’API REST in Python#

Carica il documento#

Estrai testo da documenti PDF usando Python#

Leggi testo per numero di pagina da documenti PDF usando Python#

Ottieni testo da documento allegato con PDF utilizzando Python#

Prova in linea#

Conclusione#

Guarda anche#