Анализатор документов Word — извлечение изображений из файла Word онлайн на Java

Синтаксический анализ документов является важной задачей во многих отраслях, где требуется извлечение данных из различных форматов документов. При работе с документами Word извлечение изображений может быть особенно полезно в таких случаях, как анализ контента, распознавание изображений или визуализация данных. Извлечение изображений вручную из больших документов Word может занять много времени. Таким образом, автоматизация процесса извлечения изображений может сэкономить ваше время и усилия. В этой статье мы покажем, как программно извлекать изображения из документов Word на Java.

В этой статье должны быть раскрыты следующие темы:

Java REST API для извлечения изображений из документов Word и установки SDK

GroupDocs.Parser Cloud SDK для Java — это мощная библиотека Java, предоставляющая простой и эффективный способ анализа и извлечения данных из различных форматов документов, включая документы Word. Он предлагает широкий спектр функций для анализа документов, позволяя разработчикам извлекать изображения, текст, метаданные и многое другое. GroupDocs.Parser также предоставляет SDK для C#.NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для облачных API.

Для начала вам необходимо включить пакет SDK GroupDocs.Parser Cloud в ваш проект Java. Вы можете либо скачать файл JAR API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Репозиторий Мавена:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Мейвена:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Затем вам нужно зарегистрироваться для получения бесплатной пробной учетной записи или приобрести план подписки на веб-сайте GroupDocs и получить ключ API. Получив идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на основе Java:

# Получите свой client_id и client_secret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь все изображения из документов Word в Java с помощью REST API

Чтобы извлечь изображения из документов Word на Java с помощью GroupDocs.Parser Cloud SDK, выполните следующие действия и пример фрагмента кода:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее задайте путь к входному документу Word.
  • Затем создайте экземпляр класса ImagesOptions().
  • Затем назначьте fileInfo параметру изображения setFileInfo.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

В следующем примере кода показано, как извлечь все изображения из документа Word онлайн на Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Как извлечь изображения из документа Word в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Извлечение определенных изображений из файла Word в Java с использованием номера страницы

В этом разделе мы напишем шаги и пример фрагмента кода для программного извлечения определенных изображений из документа Word на Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Далее укажите путь к файлу Word в качестве входных данных.
  • Затем создайте экземпляр класса ImagesOptions().
  • Затем назначьте fileInfo параметру изображения setFileInfo.
  • Затем укажите значения setStartPageNumber и setCountPagesToExtract.
  • Теперь создайте экземпляр класса ImagesRequest() и передайте параметр ImagesOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.images() и передав параметр ImagesRequest.

В следующем примере кода показано, как извлечь определенные изображения из файла Word по диапазону страниц в Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Извлечение изображений из файла Word онлайн по диапазону страниц в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Бесплатный онлайн-экстрактор изображений

Как лучше всего бесплатно извлечь изображения из Word онлайн? Пожалуйста, попробуйте онлайн-анализатор документов Word для извлечения изображений из Word. Этот инструмент Word Parser разработан с использованием вышеупомянутой библиотеки парсера Java.

Заключение

В заключение отметим, что GroupDocs.Parser Cloud SDK — это отличное решение для извлечения изображений из документов Word, позволяющее сэкономить время и силы и обеспечить точные результаты. Вот что вы узнали из этой статьи:

  • как программно извлечь все изображения из Word DOCX на Java с помощью REST API;
  • как извлекать определенные изображения из документов Word на Java с помощью REST API;
  • и онлайн-инструмент для извлечения изображений из документов Word.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. Полный исходный код Java SDK находится в свободном доступе на Github.

Наконец, мы продолжаем писать новые статьи в блогах о разных форматах файлов и анализируем их с помощью REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Задайте вопрос

Если у вас возникнут вопросы о том, как извлечь изображения из документов, свяжитесь с нами через наш форум.

Часто задаваемые вопросы

Как анализировать документы Word в Java?

Чтобы извлечь изображения или текст, сначала необходимо загрузить и проанализировать документ Word с помощью GroupDocs.Parser Cloud SDK. Этот процесс включает указание пути к файлу и вызов метода Parse для анализа документов.

Может ли GroupDocs.Parser Cloud SDK извлекать изображения из документов других форматов?

Да, GroupDocs.Parser Cloud SDK для Java поддерживает извлечение изображений из различных форматов документов, включая Word, PDF, Excel, PowerPoint и многие другие.

Может ли пакет SDK GroupDocs.Parser Cloud извлекать несколько изображений из одного документа Word?

Да, SDK может извлекать несколько изображений из одного документа Word, предоставляя вам все изображения, содержащиеся в документе.

Сохраняет ли GroupDocs.Parser Cloud SDK исходное качество изображения в процессе извлечения?

Да, GroupDocs.Parser Cloud SDK для Java сохраняет исходное качество изображения при извлечении изображений из документов Word.

Смотрите также

Вот несколько связанных статей, которые могут оказаться полезными: