
Die Dokumentenverarbeitung ist eine entscheidende Aufgabe in vielen Branchen, in denen die Datenextraktion aus verschiedenen Dokumentenformaten erforderlich ist. Bei der Arbeit mit Word Dokumenten kann das Extrahieren von Bildern besonders nützlich sein, beispielsweise bei der Inhaltsanalyse, Bilderkennung oder Datenvisualisierung. Das manuelle Extrahieren von Bildern aus großen Word Dokumenten kann zeitaufwendig sein. Daher kann die Automatisierung des Bildextraktionsprozesses Ihnen Zeit und Mühe sparen. In diesem Artikel werden wir zeigen, wie Sie Bilder programmgesteuert aus Word Dokumenten in Java extrahieren können.
Die folgenden Themen werden in diesem Artikel behandelt:
- Java REST-API zum Extrahieren von Bildern aus Word Dokumenten und SDK-Installation
- Wie man alle Bilder aus Word Dokumenten in Java mit REST-API extrahiert
- Specifice Bilder aus einer Word-Datei in Java mithilfe der Seitenzahl extrahieren
Java REST-API zum Extrahieren von Bildern aus Word Dokumenten und SDK-Installation
GroupDocs.Parser Cloud SDK für Java ist eine leistungsstarke Java-Bibliothek, die einen einfachen und effizienten Weg bietet, um Daten aus verschiedenen Dokumentenformaten zu analysieren und extrahieren, einschließlich Word Dokumenten. Sie bietet eine breite Palette von Funktionen zur Dokumentenanalyse, die es Entwicklern ermöglichen, Bilder, Texte, Metadaten und mehr zu extrahieren. GroupDocs.Parser bietet auch C#.NET-, Java-, PHP-, Ruby und Python-SDKs als ihre Dokumentenparser-Familienmitglieder für die Cloud-APIs.
Um loszulegen, müssen Sie das GroupDocs.Parser Cloud SDK in Ihr Java-Projekt einfügen. Sie können entweder downloaden die JAR-Datei der API oder es mit Maven installieren, indem Sie das folgende Repository und die Abhängigkeit in die pom.xml-Datei Ihres Projekts einfügen:
Maven Repository:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven-Dependency:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Als nächstes müssen Sie sich sign up für ein kostenloses Testkonto oder purchase a subscription plan auf der GroupDocs-Website und get your API key. Sobald Sie die Client-ID und das Client-Geheimnis haben, fügen Sie den folgenden Codeschnipsel zu einer Java-Anwendung hinzu:
# Holen Sie sich Ihre clientid und clientsecret von https://dashboard.groupdocs.cloud nach der Registrierung.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Wie man alle Bilder aus Word Dokumenten in Java über eine REST-API extrahiert
Um Bilder aus Word Dokumenten in Java mithilfe des GroupDocs.Parser Cloud SDK zu extrahieren, folgen Sie diesen Schritten und einem Beispielcode:
- Zuerst importieren Sie die erforderlichen Klassen in Ihre Java-Datei.
- Zweitens, erstellen Sie eine Instanz der ParseApi Klasse.
- Drittens, erstellen Sie eine Instanz der FileInfo Klasse.
- Nächster Schritt, den Pfad zum Eingabe-Word Dokument festlegen.
- Dann erstellen Sie eine Instanz der Klasse ImagesOptions().
- Als nächstes weisen Sie fileInfo der setFileInfo bildoption zu.
- Jetzt erstellen Sie eine Instanz der ImagesRequest() Klasse und übergeben Sie den ImagesOptions Parameter.
- Zuletzt erhalten Sie Ergebnisse, indem Sie die ParseApi.images() Methode aufrufen und den ImagesRequest-Parameter übergeben.
Der folgende Codeausschnitt zeigt, wie man alle Bilder aus einem Word Dokument online in Java unter Verwendung der REST-API extrahiert:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// How to extract images from a Word document in Java.
public class App {
public static void main(String[] args) {
// Erstellen Sie eine Instanz der Parse-API.
ParseApi apiInstance = new ParseApi(configuration);
try {
// Bereite die Einstellungen vor
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Get output file path
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Extrahieren spezifischer Bilder aus einer Word-Datei in Java unter Verwendung der Seitenzahl
In diesem Abschnitt werden wir Schritte und einen Codeausschnitt schreiben, um programmgesteuert spezifische Bilder aus einem Word Dokument in Java zu extrahieren:
- Zuerst importieren Sie die erforderlichen Klassen in Ihre Java-Datei.
- Zweitens, erstellen Sie eine Instanz der ParseApi Klasse.
- Drittens, erstellen Sie eine Instanz der FileInfo Klasse.
- Als nächstes legen Sie den Pfad zur Word-Datei als Eingabe fest.
- Dann erstellen Sie eine Instanz der Klasse ImagesOptions().
- Als nächstes weisen Sie fileInfo der setFileInfo bildoption zu.
- Dann geben Sie die Werte für setStartPageNumber und setCountPagesToExtract an.
- Jetzt erstellen Sie eine Instanz der ImagesRequest() Klasse und übergeben Sie den ImagesOptions Parameter.
- Schließlich erhalten Sie Ergebnisse, indem Sie die ParseApi.images() Methode aufrufen und den ImagesRequest-Parameter übergeben.
Der folgende Codeausschnitt zeigt, wie man spezifische Bilder aus einer Word-Datei anhand eines Seitenbereichs in Java unter Verwendung der REST-API extrahiert:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Extract images from a Word file online by page range in Java.
public class App {
public static void main(String[] args) {
// Erstellen Sie eine Instanz der Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Bereiten Sie die Einstellungen vor
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Get output file path
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Kostenloser Online bildextraktor
What is the best way to extract images from Word online for free? Please try an online Word document parser to extract images from Word. This Word Parser tool is developed using the above-mentioned Java parser library.
Fazit
In Schlussfolgerung ist das GroupDocs.Parser Cloud SDK eine ausgezeichnete Lösung zum Extrahieren von Bildern aus Word Dokumenten, die Zeit und Mühe spart und gleichzeitig genaue Ergebnisse gewährleistet. Folgendes haben Sie aus diesem Artikel gelernt:
- how to extract all images from Word DOCX programmatically in Java using REST API;
- how to extract specific images from Word documents in Java using REST API;
- und ein Online bildextraktionstool, um Bilder aus Word Dokumenten zu extrahieren.
Zusätzlich können Sie mehr über die GroupDocs.Parser Cloud API in der Dokumentation erfahren. Wir bieten auch einen API-Referenz Abschnitt an, der es Ihnen ermöglicht, unsere APIs direkt über den Browser zu visualisieren und zu interagieren. Der vollständige Quellcode des Java SDK ist kostenlos auf Github verfügbar.
Finally, we keep writing new blog articles on different file formats and parsing them using REST API. So, please get in touch for the latest updates.
Ask a question
Falls Sie Fragen dazu haben, wie man Bilder aus Dokumenten extrahiert, können Sie uns gerne über unser forum kontaktieren.
FAQs
How do I parse Word Dokumente in Java?
Um Bilder oder Text zu extrahieren, müssen Sie zuerst das Word Dokument mit GroupDocs.Parser Cloud SDK laden und parsen. Dieser Prozess umfasst die Angabe des Dateipfad und das Aufrufen der Methode Parse, um Dokumente zu parsen.
Kann das GroupDocs.Parser Cloud SDK Bilder aus anderen Dokumentformaten extrahieren?
Ja, GroupDocs.Parser Cloud SDK für Java unterstützt die Extraktion von Bildern aus verschiedenen Dokumentformaten, einschließlich Word, PDF, Excel, PowerPoint und vielen mehr.
Kann das GroupDocs.Parser Cloud SDK mehrere Bilder aus einem einzigen Word Dokument extrahieren?
Ja, das SDK kann mehrere Bilder aus einem einzelnen Word Dokument extrahieren und stellt Ihnen alle Bilder zur Verfügung, die im Dokument enthalten sind.
Does the GroupDocs.Parser Cloud SDK die ursprüngliche Bildqualität während des Extraktionsprozesses beibehalten?
Ja, das GroupDocs.Parser Cloud SDK für Java erhält die ursprüngliche Bildqualität beim Extrahieren von Bildern aus Word Dokumenten.
Siehe auch
Hier sind einige verwandte Artikel, die Sie hilfreich finden könnten: