В современную цифровую эпоху извлечение данных из документов XML(расширяемый язык разметки) играет важную роль в различных отраслях и приложениях. XML — это популярный язык разметки, используемый для хранения и организации структурированных данных в иерархическом формате. Извлечение информации из XML-документов важно для предприятий, чтобы выполнять операции анализа данных и поиска информации в данных. В этой статье мы рассмотрим, как извлекать текст из XML-документов в Java с помощью GroupDocs.Parser Cloud SDK для Java.
В этой статье должны быть раскрыты следующие темы:
- Java REST API для разбора XML-файла и установки SDK
- Как извлечь весь текст из файлов XML в Java с помощью REST API
Java REST API для разбора XML-файла и установки SDK
GroupDocs.Parser Cloud SDK для Java — это мощное, удобное и комплексное решение для простого извлечения текста из различных форматов документов, включая XML. Благодаря его комплексным API вы можете легко извлекать текст, метаданные, изображения и другую информацию из более чем 50 форматов документов. SDK можно интегрировать в приложение на основе Java, чтобы упростить процесс разработки и повысить производительность.
Вы можете либо скачать файл JAR API, либо установить его с помощью Maven, добавив следующий репозиторий и зависимость в файл pom.xml вашего проекта:
Репозиторий Мавена:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Зависимость Мейвена:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Теперь вам нужно зарегистрироваться для получения бесплатной пробной учетной записи или приобрести план подписки на веб-сайте GroupDocs и получить ключ API. Получив идентификатор клиента и секрет клиента, добавьте приведенный ниже фрагмент кода в приложение на основе Java:
# Получите свой client_id и client_secret с https://dashboard.groupdocs.cloud после регистрации.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Как извлечь весь текст из файлов XML в Java с помощью REST API
Чтобы извлечь текст из XML-документов на Java с помощью GroupDocs.Parser Cloud SDK для Java, выполните следующие действия.
Загрузить файл
Во-первых, загрузите XML-документ в облако, используя приведенный ниже пример кода:
package com.groupdocsdev.classes;
import java.io.File;
import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;
// Загрузить файл в облачное хранилище с помощью Java
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
В результате загруженный XML-файл будет доступен в разделе файлов вашей панели управления в облаке.
Анализ XML-файла с использованием Java
Вот шаги и пример фрагмента кода, который демонстрирует, как извлечь текст из XML-документа в Java с помощью GroupDocs.Parser Cloud SDK для Java:
- Во-первых, импортируйте необходимые классы в ваш файл Java.
- Во-вторых, создайте экземпляр класса ParseApi.
- В-третьих, создайте экземпляр класса FileInfo.
- Затем установите путь к файлу XML в качестве входных данных.
- Затем создайте экземпляр класса TextOptions().
- Затем назначьте fileInfo методу setFileInfo.
- Теперь создайте экземпляр класса TextRequest() и передайте параметр TextOptions.
- Наконец, получите результаты, вызвав метод ParseApi.text() и передав параметр TextRequest.
В следующем примере кода показано, как извлечь текст и проанализировать XML-документ в Java с помощью REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
// Как извлечь текст из файла XML в Java.
public class App {
public static void main(String[] args) {
// Создайте экземпляр Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Подготовьте настройки
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.xml");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Получить путь к выходному файлу
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Вы можете увидеть результат на изображении ниже:
Бесплатный онлайн-парсер XML
Как лучше всего бесплатно извлечь текст из XML онлайн? Пожалуйста, попробуйте онлайн-программу для синтаксического анализа XML для очистки XML-файлов. Этот инструмент XML Parser разработан с использованием вышеупомянутой библиотеки анализатора Java.
Заключение
В заключение разработчики могут упростить процесс извлечения данных и эффективно обращаться к данным в XML-документах с помощью GroupDocs.Parser Cloud SDK для Java. Вот что вы узнали из этой статьи:
- как извлечь весь текст из XML-документов в Java с помощью REST API;
- программно загрузить файл XML в облако с помощью Java;
- и онлайн-инструмент извлечения XML для анализа XML-документов.
Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. Полный исходный код Java SDK находится в свободном доступе на Github.
Наконец, мы продолжаем писать новые статьи в блогах о различных форматах файлов и парсинге с помощью REST API. Поэтому, пожалуйста, свяжитесь с нами для получения последних обновлений.
Задайте вопрос
Если у вас возникнут какие-либо вопросы или сомнения по поводу парсера XML-данных, свяжитесь с нами через наш форум.
Часто задаваемые вопросы
Как извлечь весь текст из файла XML с помощью Java?
Сначала вы инициализируете класс ParserApi и устанавливаете учетные данные API, используя GroupDocs.Parser Cloud SDK для Java. Затем создайте объект ExtractOptions и укажите файл XML-документа с помощью FileInfo. Наконец, вызовите метод извлечения, передайте параметры и извлеките извлеченный текст с помощью метода getText.
Как анализировать XML-документы с помощью Java?
Вы можете анализировать файл XML с помощью GroupDocs.Parser Cloud SDK для Java в своих приложениях Java. Этот мощный SDK обеспечивает эффективный и простой способ извлечения данных из XML-файлов в Java.
Смотрите также
Вот несколько связанных статей, которые могут оказаться полезными:
- Извлечение изображений из PDF-файлов на Java с использованием REST API
- Анализ документов — извлечение текста из PDF-файла в Java
- Извлечение данных из PDF с помощью REST API в Node.js
- Анализ документов Word с использованием REST API в Python
- Извлечение определенных данных из PDF с помощью Python
- Извлечение изображений из PDF-документов с помощью Python
- Как извлечь текст из PDF с помощью Python
- Извлечение изображений из документов Word с помощью Java