Python Estrai testo da un documento PDF

Il PDF (Portable Document Format) è uno dei formati di file più importanti e utilizzati per presentare e scambiare documenti. Come sviluppatore Python, ci sono molti scenari in cui vorrai estrarre il testo da un documento PDF ed esportarlo in un formato diverso usando Python per l’analisi del testo. In questo post, ti mostreremo come estrarre accuratamente il testo da un documento PDF utilizzando GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud è una soluzione API REST indipendente dalla piattaforma per la conversione di documenti e immagini senza dipendere da alcuna applicazione di terze parti. Converte oltre 50 tipi di documenti da un formato all’altro. Offre SDK per tutti i linguaggi di programmazione più diffusi, incluso Python, in modo che gli sviluppatori possano utilizzare l’API direttamente nelle loro applicazioni senza preoccuparsi delle chiamate API REST sottostanti.

Iniziamo il codice:

Installa il pacchetto GroupDocs.Conversion Cloud

Per prima cosa, installa il pacchetto groupdocs-conversion-cloud da pypi con il seguente comando.

>pip install groupdocs-conversion-cloud

Esempio di estrazione di testo PDF Python

Seguiremo questi passaggi per estrarre il testo da un documento PDF:

  • Iscrizione gratuita con groupdocs.cloud to get your AppSID and AppKey
  • Crea un modulo Python e copia e incolla il seguente codice al suo interno. Abbiamo utilizzato le opzioni predefinite per estrarre il testo del documento PDF. Puoi anche estrarre il testo di pagine specifiche utilizzando Opzioni di conversione del formato di testo.
# Modulo di importazione
import groupdocs_conversion_cloud

# Ottieni il tuo app_sid e app_key su https://dashboard.groupdocs.cloud (è richiesta la registrazione gratuita).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Crea un'istanza dell'API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Esegui il codice nel tuo IDE preferito, otterrai il seguente output e il gioco è fatto. Compito compiuto!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Sentiti libero di inviarci un commento nel forum di supporto condividendo le tue opinioni su GroupDocs.Conversion Cloud API. Oppure facci sapere se hai qualche suggerimento o se hai bisogno di funzionalità particolari che ti aspetti che la nostra API REST abbia.