Java DOM Parser — извлечение текста из XML-документов с использованием Java.

В современную цифровую эпоху извлечение данных из документов XML(расширяемый язык разметки) играет важную роль в различных отраслях и приложениях. XML — это популярный язык разметки, используемый для хранения и организации структурированных данных в иерархическом формате. Извлечение информации из XML-документов важно для предприятий, чтобы выполнять операции анализа данных и поиска информации в данных. В этой статье мы рассмотрим, как извлекать текст из XML-документов в Java с помощью GroupDocs.Parser Cloud SDK для Java.

В этой статье должны быть раскрыты следующие темы:

Java REST API для разбора XML-файла и установки SDK

GroupDocs.Parser Cloud SDK для Java — это мощное, удобное и комплексное решение для простого извлечения текста из различных форматов документов, включая XML. Благодаря его комплексным API вы можете легко извлекать текст, метаданные, изображения и другую информацию из более чем 50 форматов документов. SDK можно интегрировать в приложение на основе Java, чтобы упростить процесс разработки и повысить производительность.

Вы можете либо скачать файл JAR API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:

Репозиторий Мавена:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Зависимость Мейвена:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Теперь вам нужно зарегистрироваться для получения бесплатной пробной учетной записи или приобрести план подписки на веб-сайте GroupDocs и получить ключ API. Получив идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на основе Java:

# Получите свой client_id и client_secret с https://dashboard.groupdocs.cloud после регистрации.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Как извлечь весь текст из файлов XML в Java с помощью REST API

Чтобы извлечь текст из XML-документов на Java с помощью GroupDocs.Parser Cloud SDK для Java, выполните следующие действия.

Загрузить файл

Во-первых, загрузите XML-документ в облако, используя приведенный ниже пример кода:

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Загрузить файл в облачное хранилище с помощью Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

В результате загруженный XML-файл будет доступен в разделе файлов вашей панели управления в облаке.

Анализ XML-файла с использованием Java

Вот шаги и пример фрагмента кода, который демонстрирует, как извлечь текст из XML-документа в Java с помощью GroupDocs.Parser Cloud SDK для Java:

  • Во-первых, импортируйте необходимые классы в ваш файл Java.
  • Во-вторых, создайте экземпляр класса ParseApi.
  • В-третьих, создайте экземпляр класса FileInfo.
  • Затем установите путь к файлу XML в качестве входных данных.
  • Затем создайте экземпляр класса TextOptions().
  • Затем назначьте fileInfo методу setFileInfo.
  • Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.

В следующем примере кода показано, как извлечь текст и проанализировать XML-документ в Java с помощью REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Как извлечь текст из файла XML в Java.
public class App {

	public static void main(String[] args) {
		
		// Создайте экземпляр Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Подготовьте настройки
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Получить путь к выходному файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Вы можете увидеть результат на изображении ниже:

Java Извлечение текста из XML-документов

Извлечь текст из XML-документа в Java

Бесплатный онлайн-парсер XML

Как лучше всего бесплатно извлечь текст из XML онлайн? Пожалуйста, попробуйте онлайн-программу для синтаксического анализа XML для очистки XML-файлов. Этот инструмент XML Parser разработан с использованием вышеупомянутой библиотеки анализатора Java.

Заключение

В заключение разработчики могут упростить процесс извлечения данных и эффективно обращаться к данным в XML-документах с помощью GroupDocs.Parser Cloud SDK для Java. Вот что вы узнали из этой статьи:

  • как извлечь весь текст из XML-документов в Java с помощью REST API;
  • программно загрузить файл XML в облако с помощью Java;
  • и онлайн-инструмент извлечения XML для анализа XML-документов.

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. Полный исходный код Java SDK находится в свободном доступе на Github.

Наконец, мы продолжаем писать новые статьи в блогах о различных форматах файлов и парсинге с помощью REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.

Задайте вопрос

Если у вас возникнут какие-либо вопросы или сомнения по поводу парсера XML-данных, свяжитесь с нами через наш форум.

Часто задаваемые вопросы

Как извлечь весь текст из файла XML с помощью Java?

Сначала вы инициализируете класс ParserApi и устанавливаете учетные данные API, используя GroupDocs.Parser Cloud SDK для Java. Затем создайте объект ExtractOptions и укажите файл XML-документа с помощью FileInfo. Наконец, вызовите метод извлечения, передайте параметры и извлеките извлеченный текст с помощью метода getText.

Как анализировать XML-документы с помощью Java?

Вы можете анализировать файл XML с помощью GroupDocs.Parser Cloud SDK для Java в своих приложениях Java. Этот мощный SDK обеспечивает эффективный и простой способ извлечения данных из XML-файлов в Java.

Смотрите также

Вот несколько связанных статей, которые могут оказаться полезными: