Extrahieren Sie Text aus PDF Dokumenten mithilfe einer REST-API in Python

Möglicherweise müssen Sie in Ihren Python-Anwendungen Text aus PDF Dokumenten lesen und extrahieren. Als Python-Entwickler können Sie also ganz einfach den gesamten Text aus PDF Dokumenten programmgesteuert in der Cloud extrahieren. In diesem Artikel wird erläutert, wie Sie mithilfe einer REST-API in Python Text aus PDF Dokumenten extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Dokumentparser-REST-API und Python-SDK
Extrahieren Sie Text aus PDF mithilfe einer REST-API

Dokumentparser-REST-API und Python-SDK

Zum Extrahieren von Text aus einem PDF Dokument verwende ich das Python SDK der GroupDocs.Parser Cloud API. Es ermöglicht Python, Text aus PDFs abzurufen und Daten aus allen gängigen Dokumenttypen zu analysieren. Mit dem SDK können Sie Text und Bilder extrahieren und Daten anhand einer Vorlage analysieren. Es stellt außerdem .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit.

Sie können GroupDocs.Parser Cloud mit pip (Paketinstallationsprogramm für Python) in Ihrem Python-Projekt installieren, indem Sie den folgenden Befehl in der Konsole verwenden:

pip install groupdocs_parser_cloud

Bitte rufen Sie Ihre Client-ID und Ihr Client-Geheimnis vom Dashboard ab, bevor Sie mit dem Befolgen der Schritte und verfügbaren Codebeispiele beginnen. Sobald Sie Ihre Kunden-ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahieren Sie Text aus PDF mithilfe einer REST-API in Python

Sie können Text aus PDF Dokumenten extrahieren, indem Sie die folgenden einfachen Schritte ausführen:

PDF-Datei in die Cloud hochladen
Text aus PDF Dokumenten mit Python extrahieren
Text nach Seitenzahlen aus PDF Dokumenten mit Python lesen
Text aus mit PDF angehängtem Dokument mit Python abrufen

Laden Sie das Dokument hoch

Laden Sie zunächst das PDF Dokument hoch, um Text aus PDF-Python zu erhalten, indem Sie das unten angegebene Codebeispiel verwenden:

# API-Initialisierung
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Dadurch ist die hochgeladene PDF-Datei (sample.pdf) im Dateienbereich Ihres Dashboards in der Cloud verfügbar. Jetzt können Sie Inhalte aus PDF extrahieren.

Extrahieren Sie Text aus PDF Dokumenten mit Python

Sie können Text mit Python ganz einfach programmgesteuert aus PDF extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

Erstellen Sie eine Instanz von ParseApi
Definieren Sie TextOptions
Legen Sie den Pfad zur PDF-Datei fest
Erstellen Sie TextRequest
Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen

Das folgende Codebeispiel zeigt, wie der gesamte Text mithilfe einer REST-API aus einem PDF Dokument extrahiert wird.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definieren Sie Textoptionen
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Extrahieren Sie Text aus dem gesamten Dokument

Lesen Sie Text nach Seitenzahlen aus PDF Dokumenten mit Python

Sie können den Text aus bestimmten Seiten einer PDF-Datei ganz einfach programmgesteuert extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

Erstellen Sie eine Instanz von ParseApi
Definieren Sie TextOptions
Geben Sie den Pfad zur PDF-Datei an
Legen Sie die Startseitennummer fest
Legen Sie die Anzahl der zu extrahierenden Seiten fest
Erstellen Sie TextRequest
Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen

Das folgende Codebeispiel zeigt, wie man mithilfe einer REST-API Wörter aus PDFs in Python nach Seitenzahlenbereich extrahiert.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definieren Sie Textoptionen
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

Extrahieren Sie Text aus einer PDF-Datei anhand eines Seitenzahlenbereichs — *Extrahieren Sie Text anhand eines Seitenzahlenbereichs*

Holen Sie sich mit Python Text aus einem mit PDF angehängten Dokument

Sie können den Text aus einem Dokument in einem Container extrahieren, der als Anhang in einer PDF-Datei programmgesteuert verfügbar ist, indem Sie die unten aufgeführten Schritte ausführen.

Erstellen Sie eine Instanz von ParseApi
Definieren Sie TextOptions
Legen Sie den Pfad zur PDF-Datei fest
Definieren Sie ContainerItemInfo
Geben Sie den relativen Pfad des inneren Dokuments an
Legen Sie die Startseitennummer fest
Legen Sie die Anzahl der zu extrahierenden Seiten fest
Erstellen Sie TextRequest
Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API den Text aus einem Dokument in einem PDF Dokument extrahieren.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Definieren Sie Textoptionen
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

*Extrahieren Sie Text aus einem Dokument in einem Container*

Versuchen Sie es online

Wie extrahiere ich kostenlos online Text aus PDF? Bitte probieren Sie das folgende kostenlose Online-PDF-Parsing-Tool aus, um kostenlos Text aus PDFs zu extrahieren. Dieser PDF-Textextraktor wurde mit der oben genannten API entwickelt. https://products.groupdocs.app/parser/pdf

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie Text aus PDF Dokumenten in der Cloud extrahieren. In diesem Artikel wurde auch erläutert, wie Sie eine PDF-Datei programmgesteuert in die Cloud und den PDF-Textextraktor online hochladen. Darüber hinaus haben wir gelernt, nur Text aus PDF anhand der Seitenzahl zu extrahieren und Python-Text aus PDF aus angehängten Dokumenten zu extrahieren.

Weitere Informationen zur GroupDocs.Parser Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten zur PDF-Textextraktion und zum Extrahieren von Text aus PDF-Python können Sie uns gerne im Forum kontaktieren.

Siehe auch

Eine REST-API-Lösung zum Parsen von Dokumenten und Extrahieren von Daten

Dokumentparser-REST-API und Python-SDK#

Extrahieren Sie Text aus PDF mithilfe einer REST-API in Python#

Laden Sie das Dokument hoch#

Extrahieren Sie Text aus PDF Dokumenten mit Python#

Lesen Sie Text nach Seitenzahlen aus PDF Dokumenten mit Python#

Holen Sie sich mit Python Text aus einem mit PDF angehängten Dokument#

Versuchen Sie es online#

Abschluss#

Siehe auch#