Извлечение изображений из PDF-документов на Java

PDF File Parser – Извлечение изображений из PDF файлов онлайн на Java

PDF(Portable Document Format) является широко используемым форматом файлов для обмена и сохранения документов в интернете. Он часто содержит различные типы контента, включая текст, изображения, таблицы и многое другое. Извлечение конкретного контента из PDF файлов, такого как изображения, может быть сложной задачей без надежных инструментов или библиотеки. Одним из таких инструментов является GroupDocs.Parser Cloud SDK для Java, который предоставляет бесперебойный и эффективный способ извлечения изображений из PDF файлов. В этой статье мы продемонстрируем, как извлекать изображения из PDF файлов на Java, используя REST API.

В следующих темах будет рассмотрено в этой статье:

Java REST API для разделения изображений из PDF и установка SDK
Как извлечь все изображения из PDF-файлов в Java с использованием REST API
Извлечение конкретных изображений из PDF файлов в Java с использованием номера страницы

Java REST API to Separate Images from PDF and SDK Installation

GroupDocs.Parser Cloud SDK для Java — это мощная и универсальная библиотека Java, которая предоставляет простой и эффективный способ парсинга и извлечения данных из различных форматов документов, включая файлы PDF. Она предлагает широкий спектр возможностей для парсинга документов, позволяя разработчикам извлекать изображения, текст, метаданные и другой контент. GroupDocs.Parser также предоставляет SDK для C#.NET, Java, PHP, Ruby и Python как членов семейства парсеров документов для облачных API.

Чтобы начать, вам нужно включить GroupDocs.Parser Cloud SDK в ваш проект на Java. Вы можете либо download JAR файл API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Далее вам нужно sign up для бесплатной пробной учетной записи или purchase a subscription plan на сайте GroupDocs и get your API key. Как только у вас есть идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на Java:

# Получите ваш clientid и clientsecret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь все изображения из PDF-файлов в Java с использованием REST API

Теперь давайте напишем шаги и пример кода для извлечения изображений из PDF файлов с использованием GroupDocs.Parser Cloud SDK для Java:

Сначала импортируйте необходимые классы в ваш Java файл.
Во-вторых, создайте экземпляр класса ParseApi.
В-третьих, создайте экземпляр класса FileInfo.
Следующим шагом установите путь к входному PDF-документу.
Затем создайте экземпляр класса ImagesOptions().
Следующим шагом назначьте fileInfo параметру изображения setFileInfo.
Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

Следующий образец кода показывает, как извлечь все изображения из PDF файла онлайн на Java с использованием REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Как извлекать изображения из PDF-файла на Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Извлечение конкретных изображений из PDF-файлов в Java с использованием номера страницы

В этом разделе мы предоставим шаги и фрагмент кода для программного извлечения конкретных изображений из файла PDF на Java:

Сначала импортируйте необходимые классы в ваш Java файл.
Во-вторых, создайте экземпляр класса ParseApi.
В-третьих, создайте экземпляр класса FileInfo.
Следующим шагом установите путь к входному PDF-документу.
Затем создайте экземпляр класса ImagesOptions().
Следующим шагом назначьте fileInfo параметру изображения setFileInfo.
Затем укажите значения setStartPageNumber и setCountPagesToExtract.
Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
В конце концов, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

Следующий пример кода показывает, как извлечь конкретные изображения из PDF-файла по диапазону страниц на Java с использованием REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Извлеките изображения из PDF файла онлайн по диапазону страниц на Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатный онлайн-извлекатель изображений

Какой лучший способ извлечь изображения из PDF онлайн бесплатно? Пожалуйста, попробуйте online PDF File parser для извлечения изображений из PDF файлов. Это программное обеспечение PDF Parser разработано с использованием Java, как упоминалось выше, библиотека парсера.

Заключение

В заключение, GroupDocs.Parser Cloud SDK для Java предоставляет надежное и эффективное решение для извлечения изображений из PDF файлов с легкостью. Вот что вы узнали из этой статьи:

How to extract all images from PDF files programmatically in Java using REST API;
Как извлечь определенные изображения из PDF-документов на Java с использованием REST API;
Онлайн-инструмент извлечения изображений для извлечения изображений из PDF-документов.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел API Reference, который позволяет вам визуализировать и взаимодействовать с нашими API напрямую через браузер. Полный исходный код Java SDK доступен бесплатно на Github.

Наконец, мы продолжаем писать новые статьи в блоге о различных форматах файлов и их парсинге с использованием REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Ask a question

В случае если у вас есть вопросы о том, как парсить документы, пожалуйста, не стесняйтесь обращаться к нам через наш forum.

Часто задаваемые вопросы

How do I parse PDF files using Java?

Чтобы извлечь изображения, текст или метаданные, вам сначала нужно загрузить и разобрать PDF-документ, используя GroupDocs.Parser Cloud SDK. Этот процесс включает в себя указание пути к файлу и вызов метода Parse для разбора PDF-файлов.

Does GroupDocs.Parser Cloud SDK for Java support other file formats besides PDF?

Да, помимо файлов PDF, GroupDocs.Parser Cloud SDK for Java поддерживает извлечение изображений из различных форматов документов, включая Word, Excel, PowerPoint, HTML и многие другие.

Can I extract all images from a PDF file using GroupDocs.Parser Cloud SDK for Java?

Да, вы можете извлечь все изображения из PDF-файла, используя GroupDocs.Parser Cloud SDK для Java.

См. также

Вот некоторые статьи, которые могут оказаться полезными:

Java REST API to Separate Images from PDF and SDK Installation#

Как извлечь все изображения из PDF-файлов в Java с использованием REST API#

Извлечение конкретных изображений из PDF-файлов в Java с использованием номера страницы#

Бесплатный онлайн-извлекатель изображений#

Заключение#

Ask a question#

Часто задаваемые вопросы#

См. также#