Python Extraer texto de un documento PDF

PDF (Portable Document Format) es uno de los formatos de archivo más importantes y ampliamente utilizados para presentar e intercambiar documentos. Como desarrollador de Python, hay muchos escenarios en los que querrá extraer texto de un documento PDF y exportarlo en un formato diferente usando Python para análisis de texto. En esta publicación, le mostraremos cómo extraer texto de un documento PDF con precisión utilizando GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud es una solución API REST independiente de la plataforma de conversión de documentos e imágenes sin depender de ninguna aplicación de terceros. Convierte más de 50 tipos de documentos de un formato a otro. Ofrece SDK para todos los lenguajes de programación populares, incluido Python, por lo que los desarrolladores pueden usar la API directamente en sus aplicaciones sin preocuparse por las llamadas API REST subyacentes.

Comencemos el código:

Instale el paquete de nube GroupDocs.Conversion

Lo primero es lo primero, instale el paquete groupdocs-conversion-cloud desde pypi con el siguiente comando.

>pip install groupdocs-conversion-cloud

Ejemplo de extracción de texto PDF de Python

Seguiremos estos pasos para extraer texto de un Documento PDF:

  • Regístrese gratis con groupdocs.cloud to get your AppSID and AppKey
  • Cree un módulo de python y copie y pegue el siguiente código en él. Hemos utilizado opciones predeterminadas para extraer texto del documento PDF. También puede extraer texto de páginas específicas usando Opciones de conversión de formato de texto.
# Módulo de importación
import groupdocs_conversion_cloud

# Obtenga su app_sid y app_key en https://dashboard.groupdocs.cloud (se requiere registro gratuito).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Crear instancia de la API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Ejecute el código en su IDE favorito, obtendrá el siguiente resultado y eso es todo. ¡Tarea cumplida!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

No dude en enviarnos un comentario en el foro de soporte compartiendo sus opiniones sobre GroupDocs.Conversion Cloud API. O háganos saber si tiene alguna sugerencia o si necesita alguna característica particular que espera que tenga nuestra API REST.