Анализатор PDF-файлов — извлечение изображений из PDF-файлов онлайн на Java

PDF(Portable Document Format) — широко используемый формат файлов для обмена и сохранения документов в Интернете. Он часто содержит различные типы контента, включая текст, изображения, таблицы и многое другое. Извлечение определенного содержимого из файлов PDF, например изображений, может быть сложной задачей без надежных инструментов или библиотек. Одним из таких инструментов является GroupDocs.Parser Cloud SDK для Java, который обеспечивает простой и эффективный способ извлечения изображений из файлов PDF. В этой статье мы покажем, как извлекать изображения из PDF-файлов на Java с помощью REST API.

В этой статье должны быть раскрыты следующие темы:

Java REST API для отделения изображений от PDF и установки SDK

GroupDocs.Parser Cloud SDK для Java — это мощная и универсальная библиотека Java, предоставляющая простой и эффективный способ анализа и извлечения данных из различных форматов документов, включая файлы PDF. Он предлагает широкий спектр функций для анализа документов, позволяя разработчикам извлекать изображения, текст, метаданные и другой контент. GroupDocs.Parser также предоставляет SDK для C#.NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для облачных API.

Для начала вам необходимо включить пакет SDK GroupDocs.Parser Cloud в ваш проект Java. Вы можете либо скачать файл JAR API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Репозиторий Мавена:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Мейвена:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Затем вам нужно зарегистрироваться для получения бесплатной пробной учетной записи или приобрести план подписки на веб-сайте GroupDocs и получить ключ API. Получив идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на основе Java:

# Получите свой client_id и client_secret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь все изображения из PDF-файлов в Java с помощью REST API

Теперь давайте напишем шаги и пример фрагмента кода для извлечения изображений из PDF-файлов с помощью GroupDocs.Parser Cloud SDK для Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Затем укажите путь к исходному PDF-документу.
  • Затем создайте экземпляр класса ImagesOptions().
  • Затем назначьте fileInfo параметру изображения setFileInfo.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

В следующем примере кода показано, как извлечь все изображения из файла PDF онлайн на Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Как извлечь изображения из файла PDF в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Извлечение определенных изображений из файлов PDF в Java с использованием номера страницы

В этом разделе мы предоставим шаги и фрагмент кода для программного извлечения определенных изображений из файла PDF на Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Затем укажите путь к исходному PDF-документу.
  • Затем создайте экземпляр класса ImagesOptions().
  • Затем назначьте fileInfo параметру изображения setFileInfo.
  • Затем укажите значения setStartPageNumber и setCountPagesToExtract.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

В следующем примере кода показано, как извлечь определенные изображения из файла PDF по диапазону страниц в Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Извлекайте изображения из файла PDF онлайн по диапазону страниц в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатное онлайн-извлечение изображений

Как лучше всего бесплатно извлечь изображения из PDF онлайн? Пожалуйста, попробуйте онлайн-парсер PDF-файлов для извлечения изображений из PDF-файлов. Это программное обеспечение PDF Parser разработано с использованием библиотеки парсера Java, как упоминалось выше.

Заключение

В заключение следует отметить, что GroupDocs.Parser Cloud SDK для Java представляет собой надежное и эффективное решение для удобного извлечения изображений из файлов PDF. Вот что вы узнали из этой статьи:

  • как программно извлечь все изображения из PDF-файлов на Java с помощью REST API;
  • как извлекать определенные изображения из PDF-документов на Java с помощью REST API;
  • и онлайн-инструмент для извлечения изображений из документов PDF.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. Полный исходный код Java SDK находится в свободном доступе на Github.

Наконец, мы продолжаем писать новые статьи в блогах о разных форматах файлов и анализируем их с помощью REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Задайте вопрос

Если у вас есть какие-либо вопросы о том, как анализировать документы, свяжитесь с нами через наш форум.

Часто задаваемые вопросы

Как анализировать PDF-файлы с помощью Java?

Чтобы извлечь изображения, текст или метаданные, сначала необходимо загрузить и проанализировать PDF-документ с помощью GroupDocs.Parser Cloud SDK. Этот процесс включает указание пути к файлу и вызов метода Parse для анализа файлов PDF.

Поддерживает ли GroupDocs.Parser Cloud SDK для Java другие форматы файлов, кроме PDF?

Да, помимо PDF-файлов GroupDocs.Parser Cloud SDK для Java поддерживает извлечение изображений из различных форматов документов, включая Word, Excel, PowerPoint, HTML и многие другие.

Можно ли извлечь все изображения из файла PDF с помощью GroupDocs.Parser Cloud SDK для Java?

Да, вы можете извлечь все изображения из файла PDF с помощью GroupDocs.Parser Cloud SDK для Java.

Смотрите также

Вот несколько связанных статей, которые могут оказаться полезными: