PDF (Portable Document Format) es uno de los formatos de archivo más importantes y ampliamente utilizados para presentar e intercambiar documentos. Como desarrollador de Python, hay muchos escenarios en los que querrá extraer texto de un documento PDF y exportarlo en un formato diferente usando Python para análisis de texto. En esta publicación, le mostraremos cómo extraer texto de un documento PDF con precisión utilizando GroupDocs.Conversion Cloud SDK for Python.
GroupDocs.Conversion Cloud es una solución API REST independiente de la plataforma de conversión de documentos e imágenes sin depender de ninguna aplicación de terceros. Convierte más de 50 tipos de documentos de un formato a otro. Ofrece SDK para todos los lenguajes de programación populares, incluido Python, por lo que los desarrolladores pueden usar la API directamente en sus aplicaciones sin preocuparse por las llamadas API REST subyacentes.
Comencemos el código:
Instale el paquete de nube GroupDocs.Conversion
Lo primero es lo primero, instale el paquete groupdocs-conversion-cloud desde pypi con el siguiente comando.
>pip install groupdocs-conversion-cloud
Ejemplo de extracción de texto PDF de Python
Seguiremos estos pasos para extraer texto de un Documento PDF:
- Regístrese gratis con groupdocs.cloud to get your AppSID and AppKey
- Cree un módulo de python y copie y pegue el siguiente código en él. Hemos utilizado opciones predeterminadas para extraer texto del documento PDF. También puede extraer texto de páginas específicas usando Opciones de conversión de formato de texto.
# Módulo de importación
import groupdocs_conversion_cloud
# Obtenga su app_sid y app_key en https://dashboard.groupdocs.cloud (se requiere registro gratuito).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Crear instancia de la API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- Ejecute el código en su IDE favorito, obtendrá el siguiente resultado y eso es todo. ¡Tarea cumplida!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
No dude en enviarnos un comentario en el foro de soporte compartiendo sus opiniones sobre GroupDocs.Conversion Cloud API. O háganos saber si tiene alguna sugerencia o si necesita alguna característica particular que espera que tenga nuestra API REST.