Word Dokument-Parser – Extrahieren Sie Bilder aus Word Dateien online in Java

Das Parsen von Dokumenten ist in vielen Branchen, in denen Daten aus verschiedenen Dokumentformaten extrahiert werden müssen, eine entscheidende Aufgabe. Bei der Arbeit mit Word Dokumenten kann das Extrahieren von Bildern in Fällen wie Inhaltsanalyse, Bilderkennung oder Datenvisualisierung besonders nützlich sein. Das manuelle Extrahieren von Bildern aus großen Word Dokumenten kann zeitaufwändig sein. Daher können Sie durch die Automatisierung des Bildextraktionsprozesses Zeit und Aufwand sparen. In diesem Artikel zeigen wir, wie man Bilder aus Word Dokumenten programmgesteuert in Java extrahiert.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Java REST API zum Extrahieren von Bildern aus Word Dokumenten und SDK-Installation

GroupDocs.Parser Cloud SDK für Java ist eine leistungsstarke Java-Bibliothek, die eine einfache und effiziente Möglichkeit bietet, Daten aus verschiedenen Dokumentformaten, einschließlich Word Dokumenten, zu analysieren und zu extrahieren. Es bietet eine breite Palette von Funktionen zum Parsen von Dokumenten und ermöglicht Entwicklern das Extrahieren von Bildern, Text, Metadaten und mehr. GroupDocs.Parser stellt außerdem C#.NET-, Java-, PHP-, Ruby und Python-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-APIs bereit.

Um zu beginnen, müssen Sie das GroupDocs.Parser Cloud SDK in Ihr Java-Projekt einbinden. Sie können entweder die JAR-Datei der API herunterladen oder sie mit Maven installieren, indem Sie das folgende Repository und die folgende Abhängigkeit zur pom.xml-Datei Ihres Projekts hinzufügen:

Maven-Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven-Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Als Nächstes müssen Sie sich auf der GroupDocs-Website für ein kostenloses Testkonto anmelden oder ein Abonnement erwerben und Ihren API-Schlüssel erhalten. Sobald Sie die Client-ID und das Client-Geheimnis haben, fügen Sie den folgenden Codeausschnitt zu einer Java-basierten Anwendung hinzu:

# Holen Sie sich nach der Registrierung Ihre client_id und client_secret von https://dashboard.groupdocs.cloud.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

So extrahieren Sie alle Bilder aus Word Dokumenten in Java mithilfe der REST-API

Um Bilder aus Word Dokumenten in Java mit dem GroupDocs.Parser Cloud SDK zu extrahieren, befolgen Sie diese Schritte und ein Beispielcode-Snippet:

  • Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
  • Drittens erstellen Sie eine Instanz der Klasse FileInfo.
  • Als nächstes legen Sie den Pfad zum Eingabe-Word Dokument fest.
  • Erstellen Sie dann eine Instanz der ImagesOptions() Klasse.
  • Weisen Sie als Nächstes fileInfo der Bildoption setFileInfo zu.
  • Erstellen Sie nun eine Instanz der ImagesRequest() Klasse und übergeben Sie den Parameter ImagesOptions.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen und den Parameter ImagesRequest übergeben.

Das folgende Codebeispiel zeigt, wie Sie mithilfe der REST-API alle Bilder online in Java aus einem Word Dokument extrahieren:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// So extrahieren Sie Bilder aus einem Word Dokument in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse-API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Ausgabedateipfad abrufen
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Extrahieren Sie bestimmte Bilder aus einer Word-Datei in Java mithilfe der Seitennummer

In diesem Abschnitt schreiben wir Schritte und einen Beispielcodeausschnitt zum programmgesteuerten Extrahieren bestimmter Bilder aus einem Word Dokument in Java:

  • Importieren Sie zunächst die erforderlichen Klassen in Ihre Java-Datei.
  • Zweitens erstellen Sie eine Instanz der Klasse ParseApi.
  • Drittens erstellen Sie eine Instanz der Klasse FileInfo.
  • Als nächstes legen Sie den Pfad zur Word-Datei als Eingabe fest.
  • Erstellen Sie dann eine Instanz der ImagesOptions() Klasse.
  • Weisen Sie als Nächstes fileInfo der Bildoption setFileInfo zu.
  • Geben Sie dann die Werte setStartPageNumber und setCountPagesToExtract an.
  • Erstellen Sie nun eine Instanz der ImagesRequest() Klasse und übergeben Sie den Parameter ImagesOptions.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.images() aufrufen und den Parameter ImagesRequest übergeben.

Das folgende Codebeispiel zeigt, wie Sie mithilfe der REST-API bestimmte Bilder aus einer Word-Datei nach Seitenbereich in Java extrahieren:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Extrahieren Sie Bilder online aus einer Word-Datei nach Seitenbereich in Java.
public class App {

	public static void main(String[] args) {
		
		// Erstellen Sie eine Instanz der Parse-API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Bereiten Sie die Einstellungen vor
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Ausgabedateipfad abrufen
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Kostenloser Online bildextraktor

Was ist der beste Weg, Bilder kostenlos online aus Word zu extrahieren? Bitte versuchen Sie es mit einem Online-Word Dokumentparser, um Bilder aus Word zu extrahieren. Dieses Word-Parser-Tool wurde unter Verwendung der oben genannten Java-Parser-Bibliothek entwickelt.

Abschluss

Zusammenfassend ist das GroupDocs.Parser Cloud SDK eine hervorragende Lösung zum Extrahieren von Bildern aus Word Dokumenten, die Zeit und Mühe spart und gleichzeitig genaue Ergebnisse gewährleistet. Folgendes haben Sie aus diesem Artikel gelernt:

  • wie man alle Bilder aus Word DOCX programmgesteuert in Java mithilfe der REST-API extrahiert;
  • wie man mithilfe der REST-API bestimmte Bilder aus Word Dokumenten in Java extrahiert;
  • und Online bildextraktionstool zum Extrahieren von Bildern aus Word Dokumenten.

Darüber hinaus können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Der vollständige Quellcode des Java SDK ist auf Github frei verfügbar.

Schließlich schreiben wir weiterhin neue Blogartikel in verschiedenen Dateiformaten und analysieren sie mithilfe der REST-API. Bitte kontaktieren Sie uns für die neuesten Updates.

Stelle eine Frage

Falls Sie Fragen zum Extrahieren von Bildern aus Dokumenten haben, können Sie uns gerne über unser Forum kontaktieren.

FAQs

Wie analysiere ich Word Dokumente in Java?

Um Bilder oder Text zu extrahieren, müssen Sie zunächst das Word Dokument mit GroupDocs.Parser Cloud SDK laden und analysieren. Dieser Prozess umfasst die Angabe des Dateipfads und den Aufruf der Parse-Methode zum Parsen von Dokumenten.

Kann GroupDocs.Parser Cloud SDK Bilder aus anderen Dokumentformaten extrahieren?

Ja, GroupDocs.Parser Cloud SDK für Java unterstützt die Extraktion von Bildern aus verschiedenen Dokumentformaten, darunter Word, PDF, Excel, PowerPoint und viele mehr.

Kann das GroupDocs.Parser Cloud SDK mehrere Bilder aus einem einzelnen Word Dokument extrahieren?

Ja, das SDK kann mehrere Bilder aus einem einzigen Word Dokument extrahieren und Ihnen so alle im Dokument enthaltenen Bilder zur Verfügung stellen.

Behält das GroupDocs.Parser Cloud SDK die ursprüngliche Bildqualität während des Extraktionsprozesses bei?

Ja, das GroupDocs.Parser Cloud SDK für Java behält die ursprüngliche Bildqualität beim Extrahieren von Bildern aus Word Dokumenten bei.

Siehe auch

Hier sind einige verwandte Artikel, die für Sie hilfreich sein könnten: