Java DOM Parser - Extrahujte text z XML dokumentů pomocí Java.

V dnešní digitální době hraje extrakce dat z dokumentů XML(eXtensible Markup Language) důležitou roli v různých odvětvích a aplikacích. XML je populární značkovací jazyk používaný pro ukládání a organizaci strukturovaných dat v hierarchickém formátu. Extrahování informací z dokumentů XML je pro podniky nezbytné k provádění analýzy dat a operacím získávání informací o datech. V tomto článku prozkoumáme, jak extrahovat text z dokumentů XML v Javě pomocí GroupDocs.Parser Cloud SDK pro Javu.

Tento článek bude obsahovat následující témata:

Java REST API pro analýzu souboru XML a instalace SDK

GroupDocs.Parser Cloud SDK pro Java je výkonné, uživatelsky přívětivé a komplexní řešení pro snadné extrahování textu z různých formátů dokumentů, včetně XML. S jeho komplexními rozhraními API můžete snadno extrahovat text, metadata, obrázky a další informace z více než 50 formátů dokumentů. SDK lze integrovat do aplikace založené na Javě, aby se zjednodušil váš vývojový proces a zvýšila produktivita.

Můžete si buď stáhnout soubor JAR API, nebo jej nainstalovat pomocí Maven přidáním následujícího úložiště a závislosti do souboru pom.xml vašeho projektu:

Úložiště Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Mavenova závislost:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Nyní se musíte zaregistrovat pro bezplatný zkušební účet nebo zakoupit plán předplatného na webu GroupDocs a získat klíč API. Jakmile budete mít ID klienta a tajný klíč klienta, přidejte níže uvedený fragment kódu do aplikace založené na jazyce Java:

# Získejte své client_id a client_secret z https://dashboard.groupdocs.cloud po registraci.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak extrahovat veškerý text ze souborů XML v Javě pomocí REST API

Chcete-li extrahovat text z dokumentů XML v Javě pomocí GroupDocs.Parser Cloud SDK pro Javu, postupujte takto:

Nahrajte soubor

Nejprve nahrajte dokument XML do cloudu pomocí příkladu kódu uvedeného níže:

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Nahrajte soubor do cloudového úložiště pomocí Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

V důsledku toho bude nahraný soubor XML dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Analýza souboru XML pomocí jazyka Java

Zde jsou kroky a příklad úryvku kódu, který ukazuje, jak extrahovat text z dokumentu XML v Javě pomocí GroupDocs.Parser Cloud SDK pro Javu:

  • Nejprve importujte požadované třídy do souboru Java.
  • Za druhé vytvořte instanci třídy ParseApi.
  • Zatřetí vytvořte instanci třídy FileInfo.
  • Dále nastavte cestu k souboru XML jako vstup.
  • Poté vytvořte instanci třídy TextOptions().
  • Dále přiřaďte fileInfo metodě setFileInfo.
  • Nyní vytvořte instanci třídy TextRequest() a předejte parametr TextOptions.
  • Nakonec získejte výsledky voláním metody ParseApi.text() a předáním parametru TextRequest.

Následující ukázka kódu ukazuje, jak extrahovat text a analyzovat dokument XML v Javě pomocí REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Jak extrahovat text ze souboru XML v Javě.
public class App {

	public static void main(String[] args) {
		
		// Vytvořte instanci rozhraní API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Připravte nastavení
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Získejte cestu k výstupnímu souboru
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Výstup můžete vidět na obrázku níže:

Java Extrahujte text z dokumentů XML

Extrahujte text z dokumentu XML v Javě

Zdarma online XML Parser

Jaký je nejlepší způsob, jak extrahovat text z XML online zdarma? Vyzkoušejte prosím online XML parser software k seškrábání souborů XML. Tento nástroj XML Parser je vyvinut pomocí výše uvedené knihovny Java parser.

Závěr

Závěrem lze říci, že vývojáři mohou zjednodušit proces extrakce dat a efektivně přistupovat k datům v dokumentech XML pomocí GroupDocs.Parser Cloud SDK pro Java. Z tohoto článku jste se dozvěděli následující:

  • jak extrahovat veškerý text z dokumentů XML v Javě pomocí REST API;
  • programově nahrát soubor XML do cloudu pomocí Java;
  • a online nástroj pro extrakci XML pro analýzu dokumentů XML.

Kromě toho se můžete dozvědět více o GroupDocs.Parser Cloud API pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat naše API a pracovat s nimi přímo prostřednictvím prohlížeče. Úplný zdrojový kód Java SDK je volně dostupný na Github.

Konečně píšeme nové články na blogu o různých formátech souborů a analýze pomocí REST API. Proto nás prosím kontaktujte pro nejnovější aktualizace.

Položit otázku

V případě, že byste měli nějaké dotazy nebo nejasnosti ohledně analyzátoru dat XML, neváhejte nás kontaktovat prostřednictvím našeho fóra.

Nejčastější dotazy

Jak extrahuji veškerý text ze souboru XML pomocí Java?

Nejprve inicializujete třídu ParserApi a nastavíte naše pověření API pomocí GroupDocs.Parser Cloud SDK for Java. Poté vytvořte objekt ExtractOptions a zadejte soubor dokumentu XML pomocí FileInfo. Nakonec zavolejte metodu extraktu, předejte možnosti a načtěte extrahovaný text pomocí metody getText.

Jak mohu analyzovat dokumenty XML pomocí Java?

Soubor XML můžete analyzovat pomocí GroupDocs.Parser Cloud SDK for Java ve svých aplikacích Java. Tato výkonná sada SDK poskytuje efektivní a přímočarý způsob, jak extrahovat data ze souborů XML v Javě.

Viz také

Zde je několik souvisejících článků, které vám mohou pomoci: