Java DOM Parser - видобуток тексту з XML-документів за допомогою Java.

У сучасну цифрову епоху вилучення даних із документів XML(eXtensible Markup Language) відіграє важливу роль у різних галузях і програмах. XML — популярна мова розмітки, яка використовується для зберігання та організації структурованих даних в ієрархічному форматі. Отримання інформації з XML-документів має важливе значення для компаній, щоб виконувати аналіз даних і операції пошуку інформації з даними. У цій статті ми розглянемо, як отримати текст із документів XML у Java за допомогою GroupDocs.Parser Cloud SDK для Java.

У цій статті будуть розглянуті такі теми:

Java REST API для аналізу XML-файлу та встановлення SDK

GroupDocs.Parser Cloud SDK для Java — це потужне, зручне та комплексне рішення для легкого вилучення тексту з різних форматів документів, включаючи XML. Завдяки комплексним API ви можете легко видобувати текст, метадані, зображення та іншу інформацію з понад 50 форматів документів. SDK можна інтегрувати в програму на основі Java, щоб спростити процес розробки та підвищити продуктивність.

Ви можете завантажити JAR-файл API або встановити його за допомогою Maven, додавши таке сховище та залежність у файл pom.xml вашого проекту:

Репозиторій Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Залежність Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Тепер вам потрібно зареєструватися для безкоштовного пробного облікового запису або придбати план підписки на веб-сайті GroupDocs і отримати ключ API. Отримавши ідентифікатор клієнта та секрет клієнта, додайте наведений нижче фрагмент коду до програми на основі Java:

# Отримайте свій client_id і client_secret на https://dashboard.groupdocs.cloud після реєстрації.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Як витягти весь текст із XML-файлів у Java за допомогою REST API

Щоб отримати текст із документів XML у Java за допомогою GroupDocs.Parser Cloud SDK для Java, виконайте такі дії:

Завантажте файл

По-перше, завантажте XML-документ у хмару, використовуючи наведений нижче приклад коду:

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Завантажте файл у хмарне сховище за допомогою Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

У результаті завантажений XML-файл буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Проаналізувати файл XML за допомогою Java

Ось кроки та приклад фрагмента коду, який демонструє, як отримати текст із XML-документа в Java за допомогою GroupDocs.Parser Cloud SDK для Java:

  • По-перше, імпортуйте необхідні класи у свій файл Java.
  • По-друге, створіть екземпляр класу ParseApi.
  • По-третє, створіть екземпляр класу FileInfo.
  • Далі встановіть шлях до файлу XML як вхідні дані.
  • Потім створіть екземпляр класу TextOptions().
  • Далі призначте fileInfo методу setFileInfo.
  • Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
  • Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.

У наведеному нижче прикладі коду показано, як отримати текст і проаналізувати XML-документ у Java за допомогою REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Як витягти текст із XML-файлу в Java.
public class App {

	public static void main(String[] args) {
		
		// Створіть примірник API аналізу
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Підготуйте налаштування
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Отримати вихідний шлях до файлу
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Ви можете побачити результат на зображенні нижче:

Java витягує текст із XML-документів

Вилучення тексту з XML-документа в Java

Безкоштовний онлайн-аналізатор XML

Який найкращий спосіб безкоштовно отримати текст із XML онлайн? Будь ласка, спробуйте онлайн-програмне забезпечення аналізатора XML, щоб отримати файли XML. Цей інструмент аналізатора XML розроблено з використанням згаданої вище бібліотеки аналізатора Java.

Висновок

Підсумовуючи, розробники можуть спростити процес вилучення даних і ефективно отримувати доступ до даних у документах XML за допомогою GroupDocs.Parser Cloud SDK для Java. Ось що ви дізналися з цієї статті:

  • як витягнути весь текст із XML-документів у Java за допомогою REST API;
  • програмно завантажити XML-файл у хмару за допомогою Java;
  • та онлайн-інструмент вилучення XML для аналізу XML-документів.

Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. Повний вихідний код Java SDK є у вільному доступі на Github.

Нарешті, ми продовжуємо писати нові статті в блозі про різні формати файлів і аналіз за допомогою REST API. Тому зв’яжіться з нами, щоб отримати останні оновлення.

Задайте питання

Якщо у вас виникли запитання чи непорозуміння щодо аналізатора XML-даних, будь ласка, зв’яжіться з нами через наш форум.

поширені запитання

Як отримати весь текст із файлу XML за допомогою Java?

Спочатку ви ініціалізуєте клас ParserApi та встановлюєте наші облікові дані API за допомогою GroupDocs.Parser Cloud SDK for Java. Потім створіть об’єкт ExtractOptions і вкажіть файл документа XML за допомогою FileInfo. Нарешті, викличте метод extract, передайте параметри та отримайте витягнутий текст за допомогою методу getText.

Як розібрати XML-документи за допомогою Java?

Ви можете проаналізувати XML-файл за допомогою GroupDocs.Parser Cloud SDK для Java у своїх програмах Java. Цей потужний пакет SDK забезпечує ефективний і простий спосіб вилучення даних із файлів XML у Java.

Дивись також

Ось деякі пов’язані статті, які можуть бути вам корисними: