Java DOM Parser - Wyodrębnij tekst z dokumentów XML za pomocą Java.

W dzisiejszej erze cyfrowej ekstrakcja danych z dokumentów XML(eXtensible Markup Language) odgrywa ważną rolę w różnych branżach i zastosowaniach. XML to popularny język znaczników używany do przechowywania i organizowania danych strukturalnych w formacie hierarchicznym. Wyodrębnianie informacji z dokumentów XML jest niezbędne dla firm do wykonywania operacji analizy danych i wyszukiwania informacji na danych. W tym artykule przyjrzymy się, jak wyodrębnić tekst z dokumentów XML w Javie przy użyciu GroupDocs.Parser Cloud SDK for Java.

W tym artykule zostaną omówione następujące tematy:

Java REST API do parsowania plików XML i instalacji SDK

GroupDocs.Parser Cloud SDK for Java to wydajne, przyjazne dla użytkownika i kompleksowe rozwiązanie do łatwego wyodrębniania tekstu z różnych formatów dokumentów, w tym XML. Dzięki wszechstronnym interfejsom API możesz łatwo wyodrębniać tekst, metadane, obrazy i inne informacje z ponad 50 formatów dokumentów. SDK można zintegrować z aplikacją opartą na języku Java, aby uprościć proces programowania i zwiększyć produktywność.

Możesz pobrać plik JAR interfejsu API lub zainstalować go za pomocą Mavena, dodając następujące repozytorium i zależności do pliku pom.xml projektu:

Repozytorium Mavena:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Zależność od Mavena:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Teraz musisz zarejestrować się, aby uzyskać bezpłatne konto próbne lub kupić plan subskrypcji na stronie GroupDocs i uzyskać swój klucz API. Po uzyskaniu identyfikatora klienta i klucza tajnego klienta dodaj poniższy fragment kodu do aplikacji opartej na języku Java:

# Uzyskaj identyfikator klienta i klucz klienta z https://dashboard.groupdocs.cloud po rejestracji.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Jak wyodrębnić cały tekst z plików XML w Javie przy użyciu interfejsu API REST

Aby wyodrębnić tekst z dokumentów XML w Javie za pomocą GroupDocs.Parser Cloud SDK for Java, wykonaj następujące kroki:

Prześlij plik

Najpierw prześlij dokument XML do chmury, korzystając z przykładowego kodu podanego poniżej:

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Prześlij plik do Cloud Storage przy użyciu języka Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

W rezultacie przesłany plik XML będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Analizuj plik XML przy użyciu języka Java

Oto kroki i przykładowy fragment kodu, który pokazuje, jak wyodrębnić tekst z dokumentu XML w Javie przy użyciu GroupDocs.Parser Cloud SDK for Java:

  • Najpierw zaimportuj wymagane klasy do pliku Java.
  • Po drugie, utwórz instancję klasy ParseApi.
  • Po trzecie, utwórz instancję klasy FileInfo.
  • Następnie ustaw ścieżkę do pliku XML jako dane wejściowe.
  • Następnie utwórz instancję klasy TextOptions().
  • Następnie przypisz fileInfo do metody setFileInfo.
  • Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst i przeanalizować dokument XML w Javie przy użyciu interfejsu API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Jak wyodrębnić tekst z pliku XML w Javie.
public class App {

	public static void main(String[] args) {
		
		// Utwórz instancję interfejsu Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Przygotuj ustawienia
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// Pobierz ścieżkę pliku wyjściowego
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Możesz zobaczyć dane wyjściowe na poniższym obrazku:

Java Wyodrębnij tekst z dokumentów XML

Wyodrębnij tekst z dokumentu XML w Javie

Darmowy internetowy parser XML

Jaki jest najlepszy sposób na bezpłatne wyodrębnienie tekstu z XML online? Wypróbuj oprogramowanie parsera XML online, aby zeskrobać pliki XML. To narzędzie XML Parser zostało opracowane przy użyciu wyżej wymienionej biblioteki parsera Java.

Wniosek

Podsumowując, programiści mogą uprościć proces ekstrakcji danych i wydajnie uzyskiwać dostęp do danych w dokumentach XML za pomocą GroupDocs.Parser Cloud SDK for Java. Oto, czego dowiedziałeś się z tego artykułu:

  • jak wyodrębnić cały tekst z dokumentów XML w Javie za pomocą REST API;
  • programowo przesłać plik XML do chmury przy użyciu języka Java;
  • oraz narzędzie do ekstrakcji XML online do analizowania dokumentów XML.

Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację i interakcję z naszymi interfejsami API bezpośrednio w przeglądarce. Pełny kod źródłowy pakietu Java SDK jest bezpłatnie dostępny na Github.

Wreszcie, wciąż piszemy nowe artykuły na blogu dotyczące różnych formatów plików i parsowania za pomocą REST API. Dlatego prosimy o kontakt w celu uzyskania najnowszych aktualizacji.

Zadać pytanie

W przypadku jakichkolwiek pytań lub niejasności dotyczących parsera danych XML, prosimy o kontakt za pośrednictwem naszego forum.

Często zadawane pytania

Jak wyodrębnić cały tekst z pliku XML przy użyciu języka Java?

Najpierw inicjalizujesz klasę ParserApi i ustawiasz nasze dane uwierzytelniające API za pomocą GroupDocs.Parser Cloud SDK for Java. Następnie utwórz obiekt ExtractOptions i określ plik dokumentu XML za pomocą FileInfo. Na koniec wywołaj metodę extract, przekaż opcje i pobierz wyodrębniony tekst za pomocą metody getText.

Jak analizować dokumenty XML przy użyciu języka Java?

Możesz analizować plik XML za pomocą GroupDocs.Parser Cloud SDK for Java w swoich aplikacjach Java. Ten potężny zestaw SDK zapewnia wydajny i prosty sposób wyodrębniania danych z plików XML w Javie.

Zobacz też

Oto kilka powiązanych artykułów, które mogą okazać się pomocne: