In verschiedenen Fällen müssen wir möglicherweise Word Dokumente analysieren und Bilder oder Text extrahieren. Das Extrahieren von Bildern und Texten aus Word Dokumenten kann hilfreich sein, um den Text zu analysieren, wiederzuverwenden oder in anderen Dokumenten zu kombinieren. Wir können DOC oder DOCX Dateien problemlos analysieren und alle Bilder/Texte programmgesteuert in der Cloud extrahieren. In diesem Artikel erfahren Sie, wie Sie Word Dokumente mithilfe einer REST-API in Python analysieren.
Die folgenden Themen sollen in diesem Artikel behandelt werden:
- Word Dokument-Parser-REST-API und Python-SDK
- Analysieren Sie Word Dokumente und extrahieren Sie Bilder mithilfe der REST-API in Python
- Extrahieren Sie Text aus Word Dokumenten mithilfe der REST-API in Python
Word Dokument-Parser-REST-API und Python-SDK
Zum Parsen von Word Dokumenten verwenden wir die Python SDK of GroupDocs.Parser Cloud API. Bitte installieren Sie es mit dem folgenden Befehl in der Konsole, um ein Dokument zu analysieren:
pip install groupdocs_parser_cloud
Bitte holen Sie sich Ihre Kunden-ID und Ihr Geheimnis aus dem Dashboard, bevor Sie die genannten Schritte ausführen. Sobald Sie Ihre ID und Ihr Geheimnis haben, fügen Sie den Code wie unten gezeigt ein:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Analysieren Sie Word Dokumente und extrahieren Sie Bilder mithilfe der REST-API in Python
Wir können Word Dokumente programmgesteuert analysieren und Bilder extrahieren, indem wir die folgenden Schritte ausführen:
- Hochladen der DOCX-Datei in die Cloud
- Bilder aus Word Dokumenten mit Python extrahieren
- Herunterladen der extrahierten Bilder
Laden Sie das Dokument hoch
Zunächst laden wir das Word Dokument (DOCX) mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:
# Erstellen Sie eine Instanz der API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Erstellen Sie eine Anfrage zum Hochladen einer Datei
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Datei hochladen
response = file_api.upload_file(request)
Dadurch ist die hochgeladene DOCX-Datei im Dateienbereich des Dashboards in der Cloud verfügbar.
Extrahieren Sie Bilder aus Word Dokumenten mit Python
Wir können alle Bilder ganz einfach programmgesteuert aus Word Dokumenten extrahieren, indem wir die unten aufgeführten Schritte ausführen.
- Erstellen Sie zunächst eine Instanz der ParseApi.
- Erstellen Sie als Nächstes eine Instanz von FileInfo.
- Legen Sie dann den Pfad zur Eingabe-DOCX-Datei fest.
- Erstellen Sie als Nächstes eine Instanz von ImageOptions.
- Weisen Sie dann FileInfo den ImageOptions zu.
- Erstellen Sie anschließend ImagesRequest mit ImageOptions als Argument.
- Extrahieren Sie abschließend Bilder, indem Sie die Methode ParseApi.images() mit ImageRequest aufrufen.
Das folgende Codebeispiel zeigt, wie Sie Bilder aus einer DOCX-Datei mithilfe der REST-API zum Parsen von Dokumenten in Python extrahieren.
# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Bildoptionen definieren
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Bildanfrage erstellen
request = groupdocs_parser_cloud.ImagesRequest(options)
# Holen Sie sich Bilder
result = parseApi.images(request)
Laden Sie extrahierte Bilder herunter
Das obige Codebeispiel speichert die extrahierten Bilder mit dem Word-Dateiparser in der Cloud. Wir können diese Bilder mithilfe des unten angegebenen Codebeispiels herunterladen:
# API-Initialisierungen
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Dateiliste abrufen
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Laden Sie die Bilder einzeln herunter
for data in response.value:
# Erstellen Sie eine Download-Dateianfrage
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Download-Datei
response = file_api.download_file(request)
# Verschieben Sie die heruntergeladene Datei in Ihr Arbeitsverzeichnis
shutil.move(response, "C:\\Files\\parser\\")
Extrahieren Sie Text aus Word Dokumenten mithilfe der REST-API in Python
Wir können den gesamten Text ganz einfach programmgesteuert aus Word Dokumenten extrahieren, indem wir die unten aufgeführten Schritte ausführen.
- Erstellen Sie zunächst eine Instanz der ParseApi.
- Erstellen Sie als Nächstes eine Instanz von FileInfo.
- Legen Sie dann den Pfad zur Eingabe-DOCX-Datei fest.
- Erstellen Sie als Nächstes eine Instanz von TextOptions.
- Weisen Sie dann FileInfo den TextOptions zu.
- Erstellen Sie anschließend TextRequest mit TextOptions als Argument.
- Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() mit TextRequest aufrufen.
Das folgende Codebeispiel zeigt, wie Sie mithilfe der DocX-Parser-REST-API Text aus einer DOCX-Datei extrahieren.
# API-Initialisierung
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Definieren Sie Textoptionen
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Textanfrage erstellen
request = groupdocs_parser_cloud.TextRequest(options)
# Holen Sie sich Text
result = parseApi.text(request)
print("Text: " + result.text)
Versuchen Sie es online
Wie verwende ich eine kostenlose Online-Software zum Parsen von Dokumenten? Bitte probieren Sie das folgende kostenlose Online-DOCX-Parsing-Tool aus, das mit der oben genannten Python-API zum Parsen von Word Dokumenten entwickelt wurde. https://products.groupdocs.app/parser/docx
Abschluss
In diesem Artikel haben wir gelernt, wie man Word Dokumente mit dem Word-Parser in der Cloud analysiert. Wir haben auch gesehen, wie man mit Parse docx Python Bilder und Text aus DOCX Dateien extrahiert. In diesem Artikel wurde auch erklärt, wie man eine DOCX-Datei programmgesteuert in die Cloud hochlädt und die extrahierten Bilder aus der Cloud herunterlädt. Außerdem können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Bei Unklarheiten über das Parsen von Dokumenten und Dateien können Sie uns gerne im Forum kontaktieren.