Python Extraire le texte d'un document PDF

PDF (Portable Document Format) est l’un des formats de fichiers les plus importants et les plus largement utilisés pour présenter et échanger des documents. En tant que développeur Python, il existe de nombreux scénarios dans lesquels vous souhaiterez extraire du texte d’un document PDF et l’exporter dans un format différent à l’aide de Python pour l’analyse de texte. Dans cet article, nous allons vous montrer comment extraire avec précision du texte d’un document PDF à l’aide de GroupDocs.Conversion Cloud SDK for Python.

GroupDocs.Conversion Cloud est une solution API REST indépendante de la plate-forme de conversion de documents et d’images sans dépendre d’une application tierce. Il convertit plus de 50 types de documents d’un format à un autre. Il propose des SDK pour tous les langages de programmation courants, y compris Python, afin que les développeurs puissent utiliser l’API directement dans leurs applications sans se soucier des appels d’API REST sous-jacents.

Commençons le code :

Installer le package GroupDocs.Conversion Cloud

Tout d’abord, installez le package groupdocs-conversion-cloud à partir de pypi avec la commande suivante.

>pip install groupdocs-conversion-cloud

Exemple d’extraction de texte PDF Python

Nous suivrons ces étapes pour extraire le texte d’un document PDF :

  • Inscription gratuite avec groupdocs.cloud to get your AppSID and AppKey
  • Créez un module python et copiez-y le code suivant. Nous avons utilisé les options par défaut pour extraire le texte du document PDF. Vous pouvez également extraire le texte de pages spécifiques à l’aide des Options de conversion du format texte.
# Module d'importation
import groupdocs_conversion_cloud

# Obtenez votre app_sid et app_key sur https://dashboard.groupdocs.cloud (une inscription gratuite est requise).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Créer une instance de l'API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Exécutez le code dans votre IDE préféré, vous obtiendrez la sortie suivante et c’est tout. Tâche accomplie !
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

N’hésitez pas à nous laisser un commentaire sur le forum d’assistance pour partager vos réflexions sur l’API GroupDocs.Conversion Cloud. Ou faites-nous savoir si vous avez des suggestions ou si vous avez besoin de fonctionnalités particulières que vous attendez de notre API REST.