Wenn Sie ein Python-Entwickler sind und Daten aus Dokumenten extrahieren möchten, führt Sie dieser Artikel anhand einfacher Python-Beispiele durch das Extrahieren von Bildern aus verschiedenen Textverarbeitungsdokumenten, Tabellenkalkulationen, Präsentationen und PDF Dokumenten.
Folgende Themen werden heute behandelt:
- Bildextraktions-REST-API und Python SDK
- Extrahieren Sie Bilder aus einem PDF Dokument mit Python
- Bilderextraktion aus Excel-, PPT oder Word Dokumenten mit Python
Bildextraktions-REST-API und Python SDK
Dieses Mal verwenden wir das Python SDK der GroupDocs.Parser Cloud API für die Extraktion von Bildern aus verschiedenen Dokumenttypen. Derzeit werden jedoch auch .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparsing-Familie für die Cloud-API bereitgestellt.
Die API unterstützt außerdem die Text und Metadatenextraktion sowie das Extrahieren von Bildern aus verschiedenen Arten von Dokumenten wie Textverarbeitungsdokumenten, Tabellenkalkulationen, Präsentationen, E-Mails, Archiven, Markups und PDF Dokumenten.
Um das Ziel zu erreichen, holen Sie sich zunächst Ihren APP-SCHLÜSSEL und Ihre APP-SID vom Dashboard, bevor Sie beginnen, die Schritte und verfügbaren Codebeispiele zu befolgen.
Extrahieren Sie Bilder aus PDF mit Python
Als Beispiel extrahiere ich zunächst die Bilder aus einem PDF Dokument. Durch einfaches Befolgen einfacher Schritte können alle Bilder problemlos extrahiert werden.
- Laden Sie das PDF Dokument in die Cloud hoch.
- Extrahieren Sie die Bilder aus dem hochgeladenen Dokument.
- Laden Sie die extrahierten Bilder herunter.
Laden Sie das PDF Dokument hoch
Laden Sie zunächst das PDF Dokument mit einer der folgenden Methoden in die Cloud hoch:
- Verwenden des Dashboards.
- Verwenden der Upload File API über den Browser.
- Programmatisch wie in der Dokumentation erwähnt.
Als Ergebnis wird die PDF-Datei in den Cloud-Speicher hochgeladen
Extrahieren Sie Bilder aus dem hochgeladenen PDF Dokument
Jetzt sind Sie mit dem schwierigen Teil fertig, alle Fotos aus dem PDF zu extrahieren. Mit dem folgenden Python-Code können Sie schnell alle Bilder aus dem hochgeladenen PDF Dokument extrahieren.
# So extrahieren Sie Bilder aus Word Dokumenten, Excel-Tabellen, Präsentationen oder PDF Dokumenten in Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Erhalten Sie die APP-SID und den APP-Schlüssel von https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Eigenschaften der extrahierten Bilder anzeigen
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Laden Sie die extrahierten Bilder herunter
Sobald Sie die Bilder extrahiert haben, können Sie sie entweder über das Dashboard oder programmgesteuert aus der Cloud herunterladen. Die hier gezeigten Bilder stammen aus dem oben gezeigten PDF Dokument.
Bildextraktion aus Excel-, PPT oder Word Dokumenten mit Python
Ebenso können Sie alle Bilder aus Word Dokumenten, Tabellenkalkulationen und Präsentationen mit genau dem oben genannten Python-Code für PDF Dokumente extrahieren. Sie müssen lediglich den Dateipfad mit dem richtigen Dokumentnamen mit Erweiterung ändern.
# Extrahieren Sie Bilder aus Word Dokumenten, Excel-Tabellen und Präsentationen in Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Ändern Sie einfach den Dokumentpfad entsprechend den Anforderungen (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Bilder aus Dokumenten online extrahieren
Wie extrahiere ich Bilder kostenlos online aus einer Datei oder einem Dokument? Groupdocs.Parser bietet ein kostenloses Online-Tool zum Extrahieren von Bildern aus Word online, zum Extrahieren aller Bilder aus PDF, zum Speichern aller Bilder in einem PowerPoint oder zum Extrahieren von Bildern aus XLSX-Python. Wählen Sie einfach das Dokument aus, aus dem Sie JPG-, PNG-, JPEG oder GIF bilder extrahieren möchten.
Die Tools Bilder online kostenlos aus PDF extrahieren, Bilder online aus Excel extrahieren, Bild online aus Word extrahieren und Bilder online aus PPTX extrahieren wurden mit dem entwickelt Groupdocs.Parser Python-API.
Abschluss
In diesem Artikel haben wir gelernt, wie man mit Python programmgesteuert Bilder aus Word, Excel, PowerPoint, PDF und anderen Dokumenten extrahiert. Kein Unterschied im Code, wir müssen lediglich den Pfad und Typ des Quelldokuments ändern.
Weitere Funktionen und weitere Informationen zur Dokumentparsing-API finden Sie in der Dokumentation für Artikel, die auch Beispiele enthalten. Der beste Weg, die hervorgehobenen Funktionen zu testen, besteht darin, die Open-Source-Laufbeispiele von GitHub zu erleben. Im Falle von Unklarheiten hilft Ihnen das GroupDocs-Supportteam gerne weiter. Danke
Stelle eine Frage
Wenn Sie Fragen zum Extrahieren von Bildern aus PDF, XLSX, PPTX oder Word DOCX mit Python haben, wenden Sie sich bitte an uns im Kostenlosen Support-Forum. )
Siehe auch
- Extrahieren Sie alle Bilder aus PDF und extrahieren Sie Bilder online aus PDF mit Node.js
- Automatisierte Datenextraktion aus PDF und Extrahieren von Daten aus PDF Python online
- Extrahieren Sie Bilder aus PDF-Python und extrahieren Sie Bilder aus PDF-Acrobat mit Python
- So extrahieren Sie bestimmte Daten aus einem Word Dokument mithilfe der REST-API in Node.js
- Extrahieren Sie Daten aus PDF-Javascript und der besten Programmiersprache zum Extrahieren von Daten aus PDF
- Extrahieren Sie Tabellen aus Word Dokumenten in Python mithilfe der REST-API in Python