Parser dokumentów Word — Wyodrębnij obrazy z pliku Word Online w Javie

Analiza dokumentów jest kluczowym zadaniem w wielu branżach, gdzie wymagana jest ekstrakcja danych z różnych formatów dokumentów. Podczas pracy z dokumentami Word wyodrębnianie obrazów może być szczególnie przydatne w takich przypadkach, jak analiza treści, rozpoznawanie obrazów lub wizualizacja danych. Ręczne wyodrębnianie obrazów z dużych dokumentów programu Word może być czasochłonne. Dlatego automatyzacja procesu ekstrakcji obrazu może zaoszczędzić czas i wysiłek. W tym artykule pokażemy, jak programowo wyodrębnić obrazy z dokumentów programu Word w Javie.

W tym artykule zostaną omówione następujące tematy:

Java REST API do wyodrębniania obrazów z dokumentów programu Word i instalacji SDK

GroupDocs.Parser Cloud SDK for Java to zaawansowana biblioteka Java, która zapewnia prosty i wydajny sposób analizowania i wyodrębniania danych z różnych formatów dokumentów, w tym dokumentów Word. Oferuje szeroki zakres funkcji do analizowania dokumentów, umożliwiając programistom wyodrębnianie obrazów, tekstu, metadanych i nie tylko. GroupDocs.Parser udostępnia również zestawy SDK C#.NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla interfejsów Cloud API.

Aby rozpocząć, musisz dołączyć pakiet SDK GroupDocs.Parser Cloud do swojego projektu Java. Możesz pobrać plik JAR interfejsu API lub zainstalować go za pomocą Mavena, dodając następujące repozytorium i zależności do pliku pom.xml projektu:

Repozytorium Mavena:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Zależność od Mavena:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Następnie musisz zarejestrować się, aby uzyskać bezpłatne konto próbne lub kupić plan subskrypcji na stronie GroupDocs i uzyskać swój klucz API. Po uzyskaniu identyfikatora klienta i klucza tajnego klienta dodaj poniższy fragment kodu do aplikacji opartej na języku Java:

# Uzyskaj identyfikator klienta i klucz klienta z https://dashboard.groupdocs.cloud po rejestracji.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak wyodrębnić wszystkie obrazy z dokumentów programu Word w Javie przy użyciu interfejsu API REST

Aby wyodrębnić obrazy z dokumentów programu Word w Javie za pomocą zestawu GroupDocs.Parser Cloud SDK, wykonaj następujące kroki i przykładowy fragment kodu:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do wejściowego dokumentu Word.
  • Następnie utwórz instancję klasy ImagesOptions().
  • Następnie przypisz fileInfo do opcji obrazu setFileInfo.
  • Teraz utwórz instancję klasy ImagesRequest() i przekaż parametr ImagesOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.images() i przekazując parametr ImagesRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić wszystkie obrazy z dokumentu programu Word online w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Jak wyodrębnić obrazy z dokumentu programu Word w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Wyodrębnij określone obrazy z pliku Word w Javie, używając numeru strony

W tej sekcji napiszemy kroki i przykładowy fragment kodu do wyodrębniania określonych obrazów z dokumentu programu Word programowo w Javie:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do pliku Word jako dane wejściowe.
  • Następnie utwórz instancję klasy ImagesOptions().
  • Następnie przypisz fileInfo do opcji obrazu setFileInfo.
  • Następnie podaj wartości setStartPageNumber i setCountPagesToExtract.
  • Teraz utwórz instancję klasy ImagesRequest() i przekaż parametr ImagesOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.images() i przekazując parametr ImagesRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić określone obrazy z pliku programu Word według zakresu stron w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Wyodrębnij obrazy z pliku Word online według zakresu stron w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Darmowy ekstraktor obrazów online

Jaki jest najlepszy sposób na bezpłatne wyodrębnienie obrazów z programu Word online? Wypróbuj internetowy parser dokumentów programu Word, aby wyodrębnić obrazy z programu Word. To narzędzie Word Parser zostało opracowane przy użyciu wyżej wymienionej biblioteki parsera Java.

Wniosek

Podsumowując, GroupDocs.Parser Cloud SDK to doskonałe rozwiązanie do wyodrębniania obrazów z dokumentów Word, oszczędzające czas i wysiłek przy jednoczesnym zapewnieniu dokładnych wyników. Oto, czego dowiedziałeś się z tego artykułu:

  • jak programowo wyodrębnić wszystkie obrazy z Worda DOCX w Javie przy użyciu REST API;
  • jak wyodrębnić określone obrazy z dokumentów Worda w Javie za pomocą REST API;
  • oraz narzędzie do ekstrakcji obrazów online do wyodrębniania obrazów z dokumentów programu Word.

Dodatkowo możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. Pełny kod źródłowy pakietu Java SDK jest bezpłatnie dostępny na Github.

Wreszcie, wciąż piszemy nowe artykuły na blogu w różnych formatach plików i analizujemy je za pomocą REST API. Dlatego prosimy o kontakt w celu uzyskania najnowszych aktualizacji.

Zadać pytanie

Jeśli masz jakiekolwiek pytania dotyczące wyodrębniania obrazów z dokumentów, skontaktuj się z nami za pośrednictwem naszego forum.

Często zadawane pytania

Jak analizować dokumenty programu Word w Javie?

Aby wyodrębnić obrazy lub tekst, musisz najpierw załadować i przeanalizować dokument programu Word za pomocą GroupDocs.Parser Cloud SDK. Ten proces obejmuje określenie ścieżki do pliku i wywołanie metody Parse w celu przeanalizowania dokumentów.

Czy GroupDocs.Parser Cloud SDK może wyodrębniać obrazy z innych formatów dokumentów?

Tak, GroupDocs.Parser Cloud SDK for Java obsługuje wyodrębnianie obrazów z różnych formatów dokumentów, w tym Word, PDF, Excel, PowerPoint i wielu innych.

Czy zestaw GroupDocs.Parser Cloud SDK może wyodrębnić wiele obrazów z jednego dokumentu programu Word?

Tak, SDK może wyodrębnić wiele obrazów z jednego dokumentu Word, zapewniając wszystkie obrazy zawarte w dokumencie.

Czy GroupDocs.Parser Cloud SDK zachowuje oryginalną jakość obrazu podczas procesu wyodrębniania?

Tak, GroupDocs.Parser Cloud SDK for Java zachowuje oryginalną jakość obrazu podczas wyodrębniania obrazów z dokumentów programu Word.

Zobacz też

Oto kilka powiązanych artykułów, które mogą okazać się pomocne: