Extrahieren Sie Bilder aus Dokumenten mit Python

Wenn Sie ein Python-Entwickler sind und Daten aus Dokumenten extrahieren möchten, führt Sie dieser Artikel anhand einfacher Python-Beispiele durch das Extrahieren von Bildern aus verschiedenen Textverarbeitungsdokumenten, Tabellenkalkulationen, Präsentationen und PDF Dokumenten.

Folgende Themen werden heute behandelt:

Bildextraktions-REST-API und Python SDK

Dokumentparsing Python SDK

Dieses Mal verwenden wir das Python SDK der GroupDocs.Parser Cloud API für die Extraktion von Bildern aus verschiedenen Dokumenttypen. Derzeit werden jedoch auch .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparsing-Familie für die Cloud-API bereitgestellt.

Die API unterstützt außerdem die Text und Metadatenextraktion sowie das Extrahieren von Bildern aus verschiedenen Arten von Dokumenten wie Textverarbeitungsdokumenten, Tabellenkalkulationen, Präsentationen, E-Mails, Archiven, Markups und PDF Dokumenten.

Um das Ziel zu erreichen, holen Sie sich zunächst Ihren APP-SCHLÜSSEL und Ihre APP-SID vom Dashboard, bevor Sie beginnen, die Schritte und verfügbaren Codebeispiele zu befolgen.

Extrahieren Sie Bilder aus PDF mit Python

PDF Dokument zum Extrahieren von Bildern, Abrufen von Bildern aus PDF oder Extrahieren von Bildern aus PDF

Als Beispiel extrahiere ich zunächst die Bilder aus einem PDF Dokument. Durch einfaches Befolgen einfacher Schritte können alle Bilder problemlos extrahiert werden.

  • Laden Sie das PDF Dokument in die Cloud hoch.
  • Extrahieren Sie die Bilder aus dem hochgeladenen Dokument.
  • Laden Sie die extrahierten Bilder herunter.

Laden Sie das PDF Dokument hoch

Laden Sie zunächst das PDF Dokument mit einer der folgenden Methoden in die Cloud hoch:

Als Ergebnis wird die PDF-Datei in den Cloud-Speicher hochgeladen

PDF-Datei im Dashboard hochgeladen

Hochgeladene PDF-Datei unter Dashboard.groupdocs.cloud/#/files

Extrahieren Sie Bilder aus dem hochgeladenen PDF Dokument

Jetzt sind Sie mit dem schwierigen Teil fertig, alle Fotos aus dem PDF zu extrahieren. Mit dem folgenden Python-Code können Sie schnell alle Bilder aus dem hochgeladenen PDF Dokument extrahieren.

# So extrahieren Sie Bilder aus Word Dokumenten, Excel-Tabellen, Präsentationen oder PDF Dokumenten in Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Erhalten Sie die APP-SID und den APP-Schlüssel von https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Eigenschaften der extrahierten Bilder anzeigen
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Laden Sie die extrahierten Bilder herunter

Sobald Sie die Bilder extrahiert haben, können Sie sie entweder über das Dashboard oder programmgesteuert aus der Cloud herunterladen. Die hier gezeigten Bilder stammen aus dem oben gezeigten PDF Dokument.

Aus einer PDF-Datei extrahierte Bilder

Aus dem PDF Dokument extrahierte Bilder

Extrahierte Bilder aus einem Dokument mit Python

Extrahieren Sie hochwertige Bilder aus einer PDF-, XLSX-, PPTX oder DOCX-Datei

Bildextraktion aus Excel-, PPT oder Word Dokumenten mit Python

Ebenso können Sie alle Bilder aus Word Dokumenten, Tabellenkalkulationen und Präsentationen mit genau dem oben genannten Python-Code für PDF Dokumente extrahieren. Sie müssen lediglich den Dateipfad mit dem richtigen Dokumentnamen mit Erweiterung ändern.

# Extrahieren Sie Bilder aus Word Dokumenten, Excel-Tabellen und Präsentationen in Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Ändern Sie einfach den Dokumentpfad entsprechend den Anforderungen (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Bilder aus Dokumenten online extrahieren

Wie extrahiere ich Bilder kostenlos online aus einer Datei oder einem Dokument? Groupdocs.Parser bietet ein kostenloses Online-Tool zum Extrahieren von Bildern aus Word online, zum Extrahieren aller Bilder aus PDF, zum Speichern aller Bilder in einem PowerPoint oder zum Extrahieren von Bildern aus XLSX-Python. Wählen Sie einfach das Dokument aus, aus dem Sie JPG-, PNG-, JPEG oder GIF bilder extrahieren möchten.

Die Tools Bilder online kostenlos aus PDF extrahieren, Bilder online aus Excel extrahieren, Bild online aus Word extrahieren und Bilder online aus PPTX extrahieren wurden mit dem entwickelt Groupdocs.Parser Python-API.

Abschluss

In diesem Artikel haben wir gelernt, wie man mit Python programmgesteuert Bilder aus Word, Excel, PowerPoint, PDF und anderen Dokumenten extrahiert. Kein Unterschied im Code, wir müssen lediglich den Pfad und Typ des Quelldokuments ändern.

Weitere Funktionen und weitere Informationen zur Dokumentparsing-API finden Sie in der Dokumentation für Artikel, die auch Beispiele enthalten. Der beste Weg, die hervorgehobenen Funktionen zu testen, besteht darin, die Open-Source-Laufbeispiele von GitHub zu erleben. Im Falle von Unklarheiten hilft Ihnen das GroupDocs-Supportteam gerne weiter. Danke

Stelle eine Frage

Wenn Sie Fragen zum Extrahieren von Bildern aus PDF, XLSX, PPTX oder Word DOCX mit Python haben, wenden Sie sich bitte an uns im Kostenlosen Support-Forum. )

Siehe auch