Analýza dokumentů je zásadním úkolem v mnoha odvětvích, kde je vyžadována extrakce dat z různých formátů dokumentů. Při práci s dokumenty Word může být extrahování obrázků zvláště užitečné v případech, jako je analýza obsahu, rozpoznávání obrázků nebo vizualizace dat. Ruční extrahování obrázků z velkých dokumentů aplikace Word může být časově náročné. Automatizace procesu extrakce obrazu vám proto může ušetřit čas a námahu. V tomto článku si ukážeme, jak extrahovat obrázky z dokumentů Wordu programově v Javě.
Tento článek bude obsahovat následující témata:
- Java REST API pro extrahování obrázků z dokumentů Word a instalace SDK
- Jak extrahovat všechny obrázky z dokumentů Word v Javě pomocí REST API
- Extrahujte konkrétní obrázky ze souboru Word v Javě pomocí čísla stránky
Java REST API pro extrahování obrázků z dokumentů aplikace Word a instalace SDK
GroupDocs.Parser Cloud SDK for Java je výkonná knihovna Java, která poskytuje jednoduchý a efektivní způsob, jak analyzovat a extrahovat data z různých formátů dokumentů, včetně dokumentů Word. Nabízí širokou škálu funkcí pro analýzu dokumentů a umožňuje vývojářům extrahovat obrázky, text, metadata a další. GroupDocs.Parser také poskytuje sady C#.NET, Java, PHP, Ruby a Python SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.
Chcete-li začít, musíte do svého projektu Java zahrnout sadu GroupDocs.Parser Cloud SDK. Můžete si buď stáhnout soubor JAR API, nebo jej nainstalovat pomocí Maven přidáním následujícího úložiště a závislosti do souboru pom.xml vašeho projektu:
Úložiště Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Mavenova závislost:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Dále se musíte zaregistrovat pro bezplatný zkušební účet nebo zakoupit plán předplatného na webu GroupDocs a získat klíč API. Jakmile budete mít ID klienta a tajný klíč klienta, přidejte níže uvedený fragment kódu do aplikace založené na jazyce Java:
# Získejte své client_id a client_secret z https://dashboard.groupdocs.cloud po registraci.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Jak extrahovat všechny obrázky z dokumentů aplikace Word v Javě pomocí REST API
Chcete-li extrahovat obrázky z dokumentů aplikace Word v jazyce Java pomocí GroupDocs.Parser Cloud SDK, postupujte podle následujících kroků a příkladu fragmentu kódu:
- Nejprve importujte požadované třídy do souboru Java.
- Za druhé vytvořte instanci třídy ParseApi.
- Zatřetí vytvořte instanci třídy FileInfo.
- Dále nastavte cestu ke vstupnímu dokumentu aplikace Word.
- Poté vytvořte instanci třídy ImagesOptions().
- Dále přiřaďte fileInfo k možnosti obrázku setFileInfo.
- Nyní vytvořte instanci třídy ImagesRequest() a předejte parametr ImagesOptions.
- Nakonec získáte výsledky voláním metody ParseApi.images() a předáním parametru ImagesRequest.
Následující ukázka kódu ukazuje, jak extrahovat všechny obrázky z dokumentu Word online v Javě pomocí REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Jak extrahovat obrázky z dokumentu aplikace Word v Javě.
public class App {
public static void main(String[] args) {
// Vytvořte instanci rozhraní API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Připravte nastavení
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Získejte cestu k výstupnímu souboru
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Extrahujte konkrétní obrázky ze souboru aplikace Word v jazyce Java pomocí čísla stránky
V této části napíšeme kroky a ukázkový úryvek kódu pro extrahování konkrétních obrázků z dokumentu Word programově v Javě:
- Nejprve importujte požadované třídy do souboru Java.
- Za druhé vytvořte instanci třídy ParseApi.
- Zatřetí vytvořte instanci třídy FileInfo.
- Dále nastavte cestu k souboru Word jako vstup.
- Poté vytvořte instanci třídy ImagesOptions().
- Dále přiřaďte fileInfo k možnosti obrázku setFileInfo.
- Poté zadejte hodnoty setStartPageNumber a setCountPagesToExtract.
- Nyní vytvořte instanci třídy ImagesRequest() a předejte parametr ImagesOptions.
- Nakonec získejte výsledky voláním metody ParseApi.images() a předáním parametru ImagesRequest.
Následující ukázka kódu ukazuje, jak extrahovat konkrétní obrázky ze souboru aplikace Word podle rozsahu stránek v Javě pomocí REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Extrahujte obrázky ze souboru aplikace Word online podle rozsahu stránek v Javě.
public class App {
public static void main(String[] args) {
// Vytvořte instanci rozhraní API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Připravte nastavení
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Získejte cestu k výstupnímu souboru
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Zdarma Online Image Extractor
Jaký je nejlepší způsob, jak extrahovat obrázky z Wordu online zdarma? Pro extrahování obrázků z Wordu zkuste online analyzátor dokumentů Word. Tento nástroj Word Parser je vyvinut pomocí výše uvedené knihovny Java parser.
Závěr
Na závěr, GroupDocs.Parser Cloud SDK je vynikajícím řešením pro extrahování obrázků z dokumentů aplikace Word, což šetří čas a námahu a zároveň zajišťuje přesné výsledky. Z tohoto článku jste se dozvěděli následující:
- jak extrahovat všechny obrázky z Word DOCX programově v Javě pomocí REST API;
- jak extrahovat konkrétní obrázky z dokumentů Wordu v Javě pomocí REST API;
- a online nástroj pro extrakci obrázků pro extrahování obrázků z dokumentů aplikace Word.
Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat naše API a pracovat s nimi přímo prostřednictvím prohlížeče. Úplný zdrojový kód Java SDK je volně dostupný na Github.
A konečně, stále píšeme nové články na blogu o různých formátech souborů a analyzujeme je pomocí REST API. Proto nás prosím kontaktujte pro nejnovější aktualizace.
Položit otázku
V případě, že byste měli nějaké dotazy ohledně extrahování obrázků z dokumentů, neváhejte nás kontaktovat prostřednictvím našeho fóra.
Nejčastější dotazy
Jak analyzuji dokumenty aplikace Word v Javě?
Chcete-li extrahovat obrázky nebo text, musíte nejprve načíst a analyzovat dokument Word pomocí GroupDocs.Parser Cloud SDK. Tento proces zahrnuje zadání cesty k souboru a volání metody Parse pro analýzu dokumentů.
Může GroupDocs.Parser Cloud SDK extrahovat obrázky z jiných formátů dokumentů?
Ano, GroupDocs.Parser Cloud SDK for Java podporuje extrakci obrázků z různých formátů dokumentů, včetně Wordu, PDF, Excelu, PowerPointu a mnoha dalších.
Může GroupDocs.Parser Cloud SDK extrahovat více obrázků z jednoho dokumentu aplikace Word?
Ano, SDK dokáže extrahovat více obrázků z jednoho dokumentu aplikace Word a poskytnout vám všechny obrázky obsažené v dokumentu.
Zachovává sada GroupDocs.Parser Cloud SDK během procesu extrakce původní kvalitu obrazu?
Ano, GroupDocs.Parser Cloud SDK for Java zachovává původní kvalitu obrazu při extrahování obrázků z dokumentů aplikace Word.
Viz také
Zde je několik souvisejících článků, které vám mohou pomoci: