Java DOM Parser: extraiga texto de documentos XML usando Java.

En la era digital actual, la extracción de datos de documentos XML(lenguaje de marcado extensible) juega un papel importante en varias industrias y aplicaciones. XML es un lenguaje de marcado popular que se utiliza para almacenar y organizar datos estructurados en un formato jerárquico. La extracción de información de documentos XML es esencial para que las empresas realicen operaciones de análisis de datos y recuperación de información sobre los datos. En este artículo, exploraremos cómo extraer texto de documentos XML en Java usando GroupDocs.Parser Cloud SDK para Java.

En este artículo se tratarán los siguientes temas:

API REST de Java para analizar archivos XML e instalación de SDK

GroupDocs.Parser Cloud SDK para Java es una solución poderosa, fácil de usar y completa para extraer texto de varios formatos de documentos sin esfuerzo, incluido XML. Con sus API integrales, puede extraer fácilmente texto, metadatos, imágenes y otra información de más de 50 formatos de documentos. El SDK se puede integrar en una aplicación basada en Java para simplificar su proceso de desarrollo y mejorar la productividad.

Puede descargar el archivo JAR de la API o instalarlo usando Maven agregando el siguiente repositorio y dependencia en el archivo pom.xml de su proyecto:

Repositorio Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Dependencia Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Ahora, debe registrarse para obtener una cuenta de prueba gratuita o comprar un plan de suscripción en el sitio web de GroupDocs y obtener su clave API. Una vez que tenga la identificación del cliente y el secreto del cliente, agregue el siguiente fragmento de código a una aplicación basada en Java:

# Obtenga su client_id y client_secret de https://dashboard.groupdocs.cloud después del registro.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cómo extraer todo el texto de archivos XML en Java mediante la API REST

Para extraer texto de documentos XML en Java usando GroupDocs.Parser Cloud SDK para Java, siga estos pasos:

  • Subir el archivo XML a la nube
  • Extraer texto de XML usando Java

Subir el archivo

En primer lugar, cargue el documento XML en la nube utilizando el ejemplo de código que se muestra a continuación:

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Sube el archivo a Cloud Storage usando Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Como resultado, el archivo XML cargado estará disponible en la sección de archivos de su tablero en la nube.

Analizar archivo XML usando Java

Estos son los pasos y un fragmento de código de ejemplo que demuestra cómo extraer texto de un documento XML en Java usando GroupDocs.Parser Cloud SDK para Java:

  • En primer lugar, importe las clases requeridas en su archivo Java.
  • En segundo lugar, cree una instancia de la clase ParseApi.
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • A continuación, establezca la ruta al archivo XML como entrada.
  • Luego, crea una instancia de la clase TextOptions().
  • A continuación, asigne fileInfo al método setFileInfo.
  • Ahora, cree una instancia de la clase TextRequest() y pase el parámetro TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto y analizar un documento XML en Java utilizando la API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Cómo extraer texto de un archivo XML en Java.
public class App {

	public static void main(String[] args) {
		
		// Crear una instancia de la API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Preparar los ajustes
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Obtener la ruta del archivo de salida
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Puedes ver la salida en la siguiente imagen:

Java Extraer texto de documentos XML

Extraer texto de un documento XML en Java

Analizador XML en línea gratuito

¿Cuál es la mejor manera de extraer texto de XML en línea de forma gratuita? Pruebe un software de análisis XML en línea para extraer archivos XML. Esta herramienta XML Parser se desarrolla utilizando la biblioteca de análisis Java mencionada anteriormente.

Conclusión

En conclusión, los desarrolladores pueden simplificar el proceso de extracción de datos y acceder de manera eficiente a los datos dentro de los documentos XML con GroupDocs.Parser Cloud SDK para Java. Lo siguiente es lo que has aprendido de este artículo:

  • cómo extraer todo el texto de documentos XML en Java usando REST API;
  • cargar mediante programación un archivo XML a la nube usando Java;
  • y herramienta de extracción XML en línea para analizar documentos XML.

Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. El código fuente completo de Java SDK está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog en diferentes formatos de archivo y analizando usando REST API. Por lo tanto, póngase en contacto para obtener las últimas actualizaciones.

Hacer una pregunta

En caso de que tenga alguna consulta o confusión sobre el analizador de datos XML, no dude en contactarnos a través de nuestro foro.

preguntas frecuentes

¿Cómo extraigo todo el texto de un archivo XML usando Java?

Primero inicializa la clase ParserApi y configura nuestras credenciales API usando GroupDocs.Parser Cloud SDK for Java. Luego, cree un objeto ExtractOptions y especifique el archivo del documento XML usando FileInfo. Finalmente, llame al método extract, pase las opciones y recupere el texto extraído usando el método getText.

¿Cómo analizo documentos XML usando Java?

Puede analizar un archivo XML usando GroupDocs.Parser Cloud SDK for Java en sus aplicaciones Java. Este poderoso SDK proporciona una forma eficiente y sencilla de extraer datos de archivos XML en Java.

Ver también

Aquí hay algunos artículos relacionados que pueden resultarle útiles: