Il PDF (Portable Document Format) è uno dei formati di file più importanti e utilizzati per presentare e scambiare documenti. Come sviluppatore Python, ci sono molti scenari in cui vorrai estrarre il testo da un documento PDF ed esportarlo in un formato diverso usando Python per l’analisi del testo. In questo post, ti mostreremo come estrarre accuratamente il testo da un documento PDF utilizzando GroupDocs.Conversion Cloud SDK for Python.
GroupDocs.Conversion Cloud è una soluzione API REST indipendente dalla piattaforma per la conversione di documenti e immagini senza dipendere da alcuna applicazione di terze parti. Converte oltre 50 tipi di documenti da un formato all’altro. Offre SDK per tutti i linguaggi di programmazione più diffusi, incluso Python, in modo che gli sviluppatori possano utilizzare l’API direttamente nelle loro applicazioni senza preoccuparsi delle chiamate API REST sottostanti.
Iniziamo il codice:
Installa il pacchetto GroupDocs.Conversion Cloud
Per prima cosa, installa il pacchetto groupdocs-conversion-cloud da pypi con il seguente comando.
>pip install groupdocs-conversion-cloud
Esempio di estrazione di testo PDF Python
Seguiremo questi passaggi per estrarre il testo da un documento PDF:
- Iscrizione gratuita con groupdocs.cloud to get your AppSID and AppKey
- Crea un modulo Python e copia e incolla il seguente codice al suo interno. Abbiamo utilizzato le opzioni predefinite per estrarre il testo del documento PDF. Puoi anche estrarre il testo di pagine specifiche utilizzando Opzioni di conversione del formato di testo.
# Modulo di importazione
import groupdocs_conversion_cloud
# Ottieni il tuo app_sid e app_key su https://dashboard.groupdocs.cloud (è richiesta la registrazione gratuita).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Crea un'istanza dell'API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- Esegui il codice nel tuo IDE preferito, otterrai il seguente output e il gioco è fatto. Compito compiuto!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
Sentiti libero di inviarci un commento nel forum di supporto condividendo le tue opinioni su GroupDocs.Conversion Cloud API. Oppure facci sapere se hai qualche suggerimento o se hai bisogno di funzionalità particolari che ti aspetti che la nostra API REST abbia.