Парсер документов Word – Извлечение изображений из файла Word онлайн на Java

Парсинг документов является важной задачей во многих отраслях, где требуется извлечение данных из различных форматов документов. При работе с Word документами извлечение изображений может быть особенно полезным в таких случаях, как анализ контента, распознавание изображений или визуализация данных. Ручное извлечение изображений из больших документов Word может занять много времени. Поэтому автоматизация процесса извлечения изображений может сэкономить ваше время и усилия. В этой статье мы продемонстрируем, как извлекать изображения из документов Word программно на Java.

В статье будут рассмотрены следующие темы:

Java REST API to Extract Images from Word Documents and SDK Installation

GroupDocs.Parser Cloud SDK for Java - это мощная библиотека Java, которая предоставляет простой и эффективный способ разбора и извлечения данных из различных форматов документов, включая документы Word. Она предлагает широкий спектр возможностей для разбора документов, позволяя разработчикам извлекать изображения, текст, метаданные и многое другое. GroupDocs.Parser также предоставляет C#.NET, Java, PHP, Ruby и Python SDK как своих членов семьи разборщиков документов для облачных API.

Чтобы начать, вам нужно включить GroupDocs.Parser Cloud SDK в ваш Java проект. Вы можете либо download JAR файл API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Следующим шагом вам нужно sign up для получения бесплатной пробной учетной записи или purchase a subscription plan на сайте GroupDocs и get your API key. Как только у вас будут Client Id и Client Secret, добавьте следующий фрагмент кода в приложение на основе Java:

# Получите ваш clientid и clientsecret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь все изображения из документов Word на Java с использованием REST API

Чтобы извлечь изображения из документов Word в Java с использованием GroupDocs.Parser Cloud SDK, выполните следующие шаги и приведите пример кода:

  • Сначала импортируйте необходимые классы в ваш Java файл.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее укажите путь к входному документу Word.
  • Затем создайте экземпляр класса ImagesOptions().
  • Далее назначьте fileInfo параметру setFileInfo изображения.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

Следующий образец кода показывает, как извлечь все изображения из документа Word онлайн на Java с использованием REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// How to extract images from a Word document in Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Настройте параметры
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Извлечение конкретных изображений из файла Word в Java по номеру страницы

В этом разделе мы напишем шаги и пример фрагмента кода для программного извлечения конкретных изображений из документа Word на языке Java:

  • Сначала импортируйте необходимые классы в ваш Java файл.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее установите путь к файлу Word в качестве входных данных.
  • Затем создайте экземпляр класса ImagesOptions().
  • Далее назначьте fileInfo параметру setFileInfo изображения.
  • Тогда укажите значения setStartPageNumber и setCountPagesToExtract.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

Следующий пример кода демонстрирует, как извлечь конкретные изображения из файла Word по диапазону страниц на Java с использованием REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Извлеките изображения из файла Word онлайн по диапазону страниц на Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатный онлайн-инструмент для извлечения изображений

Какой лучший способ бесплатно извлечь изображения из Word онлайн? Пожалуйста, попробуйте online Word document parser для извлечения изображений из Word. Этот инструмент Word Parser разработан с использованием вышеупомянутой библиотеки парсера Java.

Вывод

В заключение, GroupDocs.Parser Cloud SDK является отличным решением для извлечения изображений из документов Word, что экономит время и усилия, обеспечивая при этом точные результаты. Вот что вы узнали из этой статьи:

  • how to extract all images from Word DOCX programmatically in Java using REST API;
  • как извлечь конкретные изображения из документов Word в Java с использованием REST API;
  • и онлайн-инструмент для извлечения изображений для извлечения изображений из документов Word.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел API Reference, который позволяет вам визуализировать и взаимодействовать с нашими API непосредственно через браузер. Полный исходный код Java SDK доступен на Github.

Наконец, мы продолжаем писать новые статьи в блоге на тему различных форматов файлов и их анализа с использованием REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Ask a question

В случае, если у вас возникнут вопросы о том, как извлекать изображения из документов, пожалуйста, не стесняйтесь связаться с нами через наш forum.

Часто задаваемые вопросы

Как мне разбить документы Word на части в Java?

Чтобы извлечь изображения или текст, вам сначала нужно загрузить и разобрать документ Word с помощью GroupDocs.Parser Cloud SDK. Этот процесс включает в себя указание пути к файлу и вызов метода Parse для разбора документов.

Can GroupDocs.Parser Cloud SDK extract images from other document formats?

Да, GroupDocs.Parser Cloud SDK для Java поддерживает извлечение изображений из различных форматов документов, включая Word, PDF, Excel, PowerPoint и многие другие.

Может ли GroupDocs.Parser Cloud SDK извлекать несколько изображений из одного документа Word?

Да, SDK может извлекать несколько изображений из одного документа Word, предоставляя вам все изображения, содержащиеся в документе.

Does the GroupDocs.Parser Cloud SDK preserve the original image quality during the extraction process?

Да, GroupDocs.Parser Cloud SDK for Java сохраняет оригинальное качество изображения при извлечении изображений из документов Word.

Смотрите также

Вот несколько связанных статей, которые могут быть полезны: