Python Extrair texto de um documento PDF

PDF (Portable Document Format) é um dos formatos de arquivo mais importantes e amplamente utilizados para apresentar e trocar documentos. Como desenvolvedor python, há muitos cenários em que você deseja extrair texto de um documento PDF e exportá-lo em um formato diferente usando Python para análise de texto. Nesta postagem, mostraremos como extrair texto de um documento PDF com precisão usando GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud é uma solução de API REST independente de plataforma de conversão de documentos e imagens sem depender de qualquer aplicativo de terceiros. Ele converte mais de 50 tipos de documentos de um formato para outro. Ele oferece SDKs para todas as linguagens de programação populares, incluindo Python, para que os desenvolvedores possam usar a API diretamente em seus aplicativos sem se preocupar com chamadas de API REST subjacentes.

Vamos iniciar o código:

Instale o pacote de nuvem GroupDocs.Conversion

Em primeiro lugar, instale o pacote groupdocs-conversion-cloud de pypi com o seguinte comando.

>pip install groupdocs-conversion-cloud

Exemplo de extração de texto PDF em Python

Seguiremos estas etapas para extrair texto de um documento PDF:

# módulo de importação
import groupdocs_conversion_cloud

# Obtenha seu app_sid e app_key em https://dashboard.groupdocs.cloud (registro gratuito é necessário).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Criar instância da API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Execute o código em seu IDE favorito, você obterá a seguinte saída e é isso. Tarefa cumprida!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Sinta-se à vontade para nos enviar um comentário no fórum de suporte compartilhando sua opinião sobre a API GroupDocs.Conversion Cloud. Ou deixe-nos saber se você tem alguma sugestão ou se precisa de algum recurso específico que espera que nossa API REST tenha.