Extrahieren Sie Bilder aus PDF Dokumenten

Möglicherweise müssen Sie Bilder aus Ihren PDF oder Word Dokumenten extrahieren, um sie wiederzuverwenden. Sie können Bilder aus PDF Dokumenten ganz einfach programmgesteuert in der Cloud extrahieren. In diesem Artikel wird erläutert, wie Sie mithilfe einer REST-API in Python Bilder aus PDF Dokumenten extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Dokumentparser-REST-API und Python-SDK

Zum Extrahieren von Bildern aus einem PDF Dokument verwende ich das Python SDK der GroupDocs.Parser Cloud API. Es ermöglicht Ihnen, Daten aus allen gängigen Dokumenttypen zu analysieren. Mit dem SDK können Sie Text und Bilder extrahieren und Daten anhand einer Vorlage analysieren. Es stellt außerdem .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API bereit.

Sie können GroupDocs.Parser Cloud mit pip (Paketinstallationsprogramm für Python) in Ihrem Python-Projekt installieren, indem Sie den folgenden Befehl in der Konsole verwenden:

pip install groupdocs_parser_cloud

Bitte rufen Sie Ihre Client-ID und Ihr Client-Geheimnis vom Dashboard ab, bevor Sie mit dem Befolgen der Schritte und verfügbaren Codebeispiele beginnen. Sobald Sie Ihre Kunden-ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahieren Sie Bilder aus PDF mithilfe einer REST-API in Python

Sie können Bilder aus PDF Dokumenten extrahieren, indem Sie die folgenden einfachen Schritte ausführen:

Laden Sie das Dokument hoch

Laden Sie zunächst das PDF Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:

# API-Initialisierung
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Dadurch ist die hochgeladene PDF-Datei (sample.pdf) im Dateienbereich Ihres Dashboards in der Cloud verfügbar.

Extrahieren Sie alle Bilder aus einem PDF Dokument mit Python

Sie können alle Bilder ganz einfach programmgesteuert aus der PDF-Datei extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz von ParseApi
  • Definieren Sie ImageOptions
  • Legen Sie den Pfad zur PDF-Datei fest
  • Erstellen Sie ImagesRequest
  • Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API alle Bilder aus einem PDF Dokument extrahieren.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahieren Sie alle Bilder aus dem PDF Dokument.

Extrahieren Sie alle Bilder aus dem PDF Dokument.

Laden Sie extrahierte Bilder herunter

Das obige Codebeispiel speichert die extrahierten Bilder in der Cloud. Sie können diese Bilder mithilfe des unten angegebenen Codebeispiels herunterladen:

# API-Initialisierung
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Bild herunterladen 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Verschieben Sie die heruntergeladene Datei in Ihr Arbeitsverzeichnis
shutil.move(response, "C:\\Files\\Images")

Speichern Sie Bilder nach Seitenzahlen aus PDF Dokumenten mit Python

Sie können die Bilder ganz einfach programmgesteuert aus bestimmten Seiten einer PDF-Datei extrahieren, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz von ParseApi
  • Definieren Sie ImageOptions
  • Geben Sie den Pfad zur PDF-Datei an
  • Legen Sie die Startseitennummer fest
  • Legen Sie die Anzahl der zu extrahierenden Seiten fest
  • Erstellen Sie ImagesRequest
  • Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen

Das folgende Codebeispiel zeigt, wie die Bilder nach Seitenzahlenbereich aus einem PDF Dokument mithilfe einer REST-API extrahiert werden. Bitte befolgen Sie die zuvor genannten Schritte, um die extrahierten Bilder herunterzuladen.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# Seitenbereich definieren
options.start_page_number = 1
options.count_pages_to_extract = 1

# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahieren Sie Bilder nach Seitenzahlenbereich aus einem PDF Dokument.

Extrahieren Sie Bilder nach Seitenzahlenbereich aus einem PDF Dokument.

Holen Sie sich mit Python Bilder aus einem mit PDF angehängten Dokument

Sie können die Bilder aus einem Dokument in einem Container extrahieren und programmgesteuert als Anhang in einer PDF-Datei verfügbar machen, indem Sie die unten aufgeführten Schritte ausführen.

  • Erstellen Sie eine Instanz von ParseApi
  • Definieren Sie ImageOptions
  • Legen Sie den Pfad zur PDF-Datei fest
  • Definieren Sie ContainerItemInfo
  • Geben Sie den relativen Pfad des inneren Dokuments an
  • Legen Sie die Startseitennummer fest
  • Legen Sie die Anzahl der zu extrahierenden Seiten fest
  • Erstellen Sie ImagesRequest
  • Erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen

Das folgende Codebeispiel zeigt, wie Sie mithilfe einer REST-API die Bilder aus einem Dokument innerhalb eines PDF Dokuments extrahieren. Bitte befolgen Sie die zuvor genannten Schritte, um die extrahierten Bilder herunterzuladen.

# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# Containerelement festlegen
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# Seitenbereich definieren
options.start_page_number = 2
options.count_pages_to_extract = 1

# Anfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahieren Sie Bilder aus einem im PDF Dokument angehängten Dokument

Extrahieren Sie Bilder aus einem im PDF Dokument angehängten Dokument.

Versuchen Sie es online

Bitte probieren Sie das folgende kostenlose Online-PDF-Parsing-Tool aus, das mit der oben genannten API entwickelt wurde. https://products.groupdocs.app/parser/pdf

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie Bilder aus PDF Dokumenten in der Cloud extrahieren. In diesem Artikel wurde auch erklärt, wie man eine PDF-Datei programmgesteuert in die Cloud hochlädt. Sie haben außerdem erfahren, wie Sie die extrahierten Bilder mithilfe des SDK herunterladen. Weitere Informationen zur GroupDocs.Parser Cloud API finden Sie in der Dokumentation. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten können Sie uns gerne im Forum kontaktieren.

Siehe auch