Python extrahiert Text aus einem PDF Dokument

PDF (Portable Document Format) ist eines der wichtigsten und am weitesten verbreiteten Dateiformate für die Präsentation und den Austausch von Dokumenten. Als Python-Entwickler gibt es viele Szenarien, in denen Sie Text aus einem PDF Dokument extrahieren und ihn mithilfe von Python zur Textanalyse in ein anderes Format exportieren möchten. In diesem Beitrag zeigen wir Ihnen, wie Sie mit GroupDocs.Conversion Cloud SDK für Python Text präzise aus einem PDF Dokument extrahieren.

GroupDocs.Conversion Cloud ist eine plattformunabhängige REST-API-Lösung zur Dokumenten und Bildkonvertierung, ohne von einer Drittanbieteranwendung abhängig zu sein. Es konvertiert über 50 Dokumenttypen von einem Format in ein anderes. Es bietet SDKs für alle gängigen Programmiersprachen, einschließlich Python, sodass Entwickler die API direkt in ihren Anwendungen verwenden können, ohne sich um zugrunde liegende REST-API-Aufrufe kümmern zu müssen.

Beginnen wir mit dem Code:

GroupDocs.Conversion Cloud-Paket installieren

Als Erstes installieren Sie das Paket „groupdocs-conversion-cloud“ von pypi mit dem folgenden Befehl.

>pip installiere groupdocs-conversion-cloud

Beispiel für die Python-PDF-Textextraktion

Wir werden diese Schritte befolgen, um Text aus einem PDF Dokument zu extrahieren:

  • Kostenlose Anmeldung bei groupdocs.cloud to get your AppSID and AppKey
  • Erstellen Sie ein Python-Modul und kopieren Sie den folgenden Code und fügen Sie ihn ein. Wir haben Standardoptionen verwendet, um Text aus dem PDF Dokument zu extrahieren. Sie können auch Text von bestimmten Seiten extrahieren, indem Sie die Konvertierungsoptionen des Textformats verwenden.
# Modul importieren
import groupdocs_conversion_cloud

# Holen Sie sich Ihre app_sid und Ihren app_key unter https://dashboard.groupdocs.cloud (kostenlose Registrierung erforderlich).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Erstellen Sie eine Instanz der API
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Führen Sie den Code in Ihrer bevorzugten IDE aus. Sie erhalten die folgende Ausgabe und fertig. Aufgabe erledigt!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Schreiben Sie uns gerne einen Kommentar im Support-Forum und teilen Sie uns Ihre Meinung zur GroupDocs.Conversion Cloud API mit. Oder teilen Sie uns mit, wenn Sie Vorschläge haben oder bestimmte Funktionen benötigen, die Sie von unserer REST-API erwarten.