Möglicherweise müssen Sie Bilder aus Ihren PDF oder Word Dokumenten extrahieren, um sie wiederzuverwenden. Sie können Bilder aus PDF Dokumenten ganz einfach programmgesteuert in der Cloud extrahieren. In diesem Artikel wird erläutert, wie Sie mithilfe einer REST-API in Python Bilder aus PDF Dokumenten extrahieren.
Die folgenden Themen sollen in diesem Artikel behandelt werden:
- Dokumentparser-REST-API und Python-SDK
- Extrahieren Sie Bilder aus PDF mithilfe einer REST-API
- Speichern Sie Bilder nach Seitenzahlbereich mithilfe der REST-API
- Bilder aus angehängten Dokumenten mithilfe der REST-API abrufen
Dokumentparser-REST-API und Python-SDK
Zum Extrahieren von Bildern aus einem PDF Dokument verwende ich das Python SDK der GroupDocs.Parser Cloud API. Es ermöglicht Ihnen, Daten aus allen gängigen Dokumenttypen zu analysieren. Mit dem SDK können Sie Text und Bilder extrahieren und Daten anhand einer Vorlage analysieren. Es stellt außerdem .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit.
Sie können GroupDocs.Parser Cloud mit pip (Paketinstallationsprogramm für Python) in Ihrem Python-Projekt installieren, indem Sie den folgenden Befehl in der Konsole verwenden:
pip install groupdocs_parser_cloud
Bitte rufen Sie Ihre Client-ID und Ihr Client-Geheimnis vom Dashboard ab, bevor Sie mit dem Befolgen der Schritte und verfügbaren Codebeispiele beginnen. Sobald Sie Ihre Kunden-ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Extrahieren Sie Bilder aus PDF mithilfe einer REST-API in Python
Sie können Bilder aus PDF Dokumenten extrahieren, indem Sie die folgenden einfachen Schritte ausführen:
- Hochladen der PDF-Datei in die Cloud
- Bilder aus PDF Dokumenten mit Python extrahieren
- Herunterladen the extracted images
Laden Sie das Dokument hoch
Laden Sie zunächst das PDF Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:
# API-Initialisierung
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
Dadurch ist die hochgeladene PDF-Datei (sample.pdf) im Dateienbereich Ihres Dashboards in der Cloud verfügbar.
Extrahieren Sie alle Bilder aus einem PDF Dokument mit Python
Sie können alle Bilder ganz einfach programmgesteuert aus der PDF-Datei extrahieren, indem Sie die unten aufgeführten Schritte ausführen.
- Erstellen Sie eine Instanz von ParseApi
- Definieren Sie ImageOptions
- Legen Sie den Pfad zur PDF-Datei fest
- Erstellen Sie ImagesRequest
- Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen
Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API alle Bilder aus einem PDF Dokument extrahieren.
# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Laden Sie extrahierte Bilder herunter
Das obige Codebeispiel speichert die extrahierten Bilder in der Cloud. Sie können diese Bilder mithilfe des unten angegebenen Codebeispiels herunterladen:
# API-Initialisierung
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# Bild herunterladen
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# Verschieben Sie die heruntergeladene Datei in Ihr Arbeitsverzeichnis
shutil.move(response, "C:\\Files\\Images")
Speichern Sie Bilder nach Seitenzahlen aus PDF Dokumenten mit Python
Sie können die Bilder ganz einfach programmgesteuert aus bestimmten Seiten einer PDF-Datei extrahieren, indem Sie die unten aufgeführten Schritte ausführen.
- Erstellen Sie eine Instanz von ParseApi
- Definieren Sie ImageOptions
- Geben Sie den Pfad zur PDF-Datei an
- Legen Sie die Startseitennummer fest
- Legen Sie die Anzahl der zu extrahierenden Seiten fest
- Erstellen Sie ImagesRequest
- Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen
Das folgende Codebeispiel zeigt, wie die Bilder nach Seitenzahlenbereich aus einem PDF Dokument mithilfe einer REST-API extrahiert werden. Bitte befolgen Sie die zuvor genannten Schritte, um die extrahierten Bilder herunterzuladen.
# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# Seitenbereich definieren
options.start_page_number = 1
options.count_pages_to_extract = 1
# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Holen Sie sich mit Python Bilder aus einem mit PDF angehängten Dokument
Sie können die Bilder aus einem Dokument in einem Container extrahieren und programmgesteuert als Anhang in einer PDF-Datei verfügbar machen, indem Sie die unten aufgeführten Schritte ausführen.
- Erstellen Sie eine Instanz von ParseApi
- Definieren Sie ImageOptions
- Legen Sie den Pfad zur PDF-Datei fest
- Definieren Sie ContainerItemInfo
- Geben Sie den relativen Pfad des inneren Dokuments an
- Legen Sie die Startseitennummer fest
- Legen Sie die Anzahl der zu extrahierenden Seiten fest
- Erstellen Sie ImagesRequest
- Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen
Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API die Bilder aus einem Dokument innerhalb eines PDF Dokuments extrahieren. Bitte befolgen Sie die zuvor genannten Schritte, um die extrahierten Bilder herunterzuladen.
# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# Containerelement festlegen
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# Seitenbereich definieren
options.start_page_number = 2
options.count_pages_to_extract = 1
# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Versuchen Sie es online
Bitte probieren Sie das folgende kostenlose Online-PDF-Parsing-Tool aus, das mit der oben genannten API entwickelt wurde. https://products.groupdocs.app/parser/pdf
Abschluss
In diesem Artikel haben Sie erfahren, wie Sie Bilder aus PDF Dokumenten in der Cloud extrahieren. In diesem Artikel wurde auch erklärt, wie man eine PDF-Datei programmgesteuert in die Cloud hochlädt. Sie haben außerdem erfahren, wie Sie die extrahierten Bilder mithilfe des SDK herunterladen. Weitere Informationen zur GroupDocs.Parser Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.
Siehe auch
- Extrahieren Sie Text aus PDF Dokumenten mithilfe einer REST-API in Python
- Eine REST-API-Lösung zum Parsen von Dokumenten und Extrahieren von Daten
- Extrahieren Sie Daten aus Word Dokument-Python mithilfe der REST-API in Node.js
- Extrahieren Sie bestimmten Text aus Word Dokumenten und Python-DocX-Extrakttabellen