Parser plików PDF — Wyodrębnij obrazy z plików PDF online w Javie

PDF(Portable Document Format) to szeroko stosowany format plików do udostępniania i przechowywania dokumentów online. Często zawiera różne rodzaje treści, w tym tekst, obrazy, tabele i inne. Wyodrębnianie określonych treści z plików PDF, takich jak obrazy, może być trudnym zadaniem bez niezawodnych narzędzi lub biblioteki. Jednym z takich narzędzi jest GroupDocs.Parser Cloud SDK for Java, które zapewnia płynny i wydajny sposób wyodrębniania obrazów z plików PDF. W tym artykule pokażemy, jak wyodrębnić obrazy z plików PDF w Javie za pomocą REST API.

W tym artykule zostaną omówione następujące tematy:

Java REST API do oddzielania obrazów od instalacji PDF i SDK

GroupDocs.Parser Cloud SDK for Java to potężna i wszechstronna biblioteka Java, która zapewnia prosty i wydajny sposób analizowania i wyodrębniania danych z różnych formatów dokumentów, w tym plików PDF. Oferuje szeroki zakres funkcji do analizowania dokumentów, umożliwiając programistom wyodrębnianie obrazów, tekstu, metadanych i innych treści. GroupDocs.Parser udostępnia również zestawy SDK C#.NET, Java, PHP, Ruby i Python jako członkowie rodziny parserów dokumentów dla interfejsów Cloud API.

Aby rozpocząć, musisz dołączyć pakiet SDK GroupDocs.Parser Cloud do swojego projektu Java. Możesz pobrać plik JAR interfejsu API lub zainstalować go za pomocą Mavena, dodając następujące repozytorium i zależności do pliku pom.xml projektu:

Repozytorium Mavena:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Zależność od Mavena:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Następnie musisz zarejestrować się, aby uzyskać bezpłatne konto próbne lub kupić plan subskrypcji na stronie GroupDocs i uzyskać swój klucz API. Po uzyskaniu identyfikatora klienta i klucza tajnego klienta dodaj poniższy fragment kodu do aplikacji opartej na języku Java:

# Uzyskaj identyfikator klienta i klucz klienta z https://dashboard.groupdocs.cloud po rejestracji.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak wyodrębnić wszystkie obrazy z plików PDF w Javie przy użyciu interfejsu API REST

Teraz napiszmy kroki i przykładowy fragment kodu, aby wyodrębnić obrazy z plików PDF za pomocą GroupDocs.Parser Cloud SDK for Java:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do wejściowego dokumentu PDF.
  • Następnie utwórz instancję klasy ImagesOptions().
  • Następnie przypisz fileInfo do opcji obrazu setFileInfo.
  • Teraz utwórz instancję klasy ImagesRequest() i przekaż parametr ImagesOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.images() i przekazując parametr ImagesRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić wszystkie obrazy z pliku PDF online w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Jak wyodrębnić obrazy z pliku PDF w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Wyodrębnij określone obrazy z plików PDF w Javie, używając numeru strony

W tej sekcji przedstawimy kroki i fragment kodu, aby programowo wyodrębnić określone obrazy z pliku PDF w Javie:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do wejściowego dokumentu PDF.
  • Następnie utwórz instancję klasy ImagesOptions().
  • Następnie przypisz fileInfo do opcji obrazu setFileInfo.
  • Następnie podaj wartości setStartPageNumber i setCountPagesToExtract.
  • Teraz utwórz instancję klasy ImagesRequest() i przekaż parametr ImagesOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.images() i przekazując parametr ImagesRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić określone obrazy z pliku PDF według zakresu stron w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Wyodrębnij obrazy z pliku PDF online według zakresu stron w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Darmowy ekstraktor obrazów online

Jaki jest najlepszy sposób na bezpłatne wyodrębnienie obrazów z pliku PDF online? Wypróbuj internetowy parser plików PDF, aby wyodrębnić obrazy z plików PDF. To oprogramowanie PDF Parser zostało opracowane przy użyciu biblioteki parsera Java, jak wspomniano powyżej.

Wniosek

Podsumowując, GroupDocs.Parser Cloud SDK for Java zapewnia niezawodne i wydajne rozwiązanie do łatwego wyodrębniania obrazów z plików PDF. Oto, czego dowiedziałeś się z tego artykułu:

  • jak programowo wyodrębnić wszystkie obrazy z plików PDF w Javie przy użyciu REST API;
  • jak wyodrębnić określone obrazy z dokumentów PDF w Javie przy użyciu REST API;
  • oraz narzędzie do ekstrakcji obrazów online do wyodrębniania obrazów z dokumentów PDF.

Dodatkowo możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. Pełny kod źródłowy pakietu Java SDK jest bezpłatnie dostępny na Github.

Wreszcie, wciąż piszemy nowe artykuły na blogu w różnych formatach plików i analizujemy je za pomocą REST API. Dlatego prosimy o kontakt w celu uzyskania najnowszych aktualizacji.

Zadać pytanie

Jeśli masz jakiekolwiek pytania dotyczące sposobu analizowania dokumentów, skontaktuj się z nami za pośrednictwem naszego forum.

Często zadawane pytania

Jak analizować pliki PDF za pomocą języka Java?

Aby wyodrębnić obrazy, tekst lub metadane, musisz najpierw załadować i przeanalizować dokument PDF za pomocą GroupDocs.Parser Cloud SDK. Ten proces obejmuje określenie ścieżki do pliku i wywołanie metody Parse w celu przeanalizowania plików PDF.

Czy GroupDocs.Parser Cloud SDK for Java obsługuje inne formaty plików niż PDF?

Tak, oprócz plików PDF GroupDocs.Parser Cloud SDK for Java obsługuje wyodrębnianie obrazów z różnych formatów dokumentów, w tym Word, Excel, PowerPoint, HTML i wielu innych.

Czy mogę wyodrębnić wszystkie obrazy z pliku PDF za pomocą GroupDocs.Parser Cloud SDK for Java?

Tak, możesz wyodrębnić wszystkie obrazy z pliku PDF za pomocą GroupDocs.Parser Cloud SDK for Java.

Zobacz też

Oto kilka powiązanych artykułów, które mogą okazać się pomocne: