Java DOM パーサー - Java を使用して XML ドキュメントからテキストを抽出します。

今日のデジタル時代では、XML(eXtensible Markup Language) ドキュメントからのデータ抽出は、さまざまな業界やアプリケーションで重要な役割を果たしています。 XML は、構造化データを階層形式で保存および整理するために使用される一般的なマークアップ言語です。 XML ドキュメントから情報を抽出することは、企業がデータ分析やデータの情報検索操作を実行するために不可欠です。この記事では、GroupDocs.Parser Cloud SDK for Java を使用して Java で XML ドキュメントからテキストを抽出する方法を説明します。

この記事では次のトピックについて説明します。

XML ファイルを解析するための Java REST API と SDK インストール

GroupDocs.Parser Cloud SDK for Java は、XML を含むさまざまなドキュメント形式からテキストを簡単に抽出するための強力でユーザーフレンドリーな包括的なソリューションです。包括的な API を使用すると、50 を超える ドキュメント形式 からテキスト、メタデータ、画像、その他の情報を簡単に抽出できます。 SDK を Java ベースのアプリケーションに統合して、開発プロセスを簡素化し、生産性を向上させることができます。

API の JAR ファイルを ダウンロード するか、Maven を使用して次のリポジトリと依存関係をプロジェクトの pom.xml ファイルに追加してインストールできます。

Maven リポジトリ:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven の依存関係:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

ここで、GroupDocs Web サイトで無料トライアル アカウントに サインアップするか、サブスクリプション プランを購入して API キーを取得する必要があります。クライアント ID とクライアント シークレットを取得したら、以下のコード スニペットを Java ベースのアプリケーションに追加します。

# 登録後、https://dashboard.groupdocs.cloud から client_id と client_secret を取得します。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API を使用して Java の XML ファイルからすべてのテキストを抽出する方法

GroupDocs.Parser Cloud SDK for Java を使用して Java の XML ドキュメントからテキストを抽出するには、次の手順に従います。

ファイルをアップロードする

まず、以下のコード例を使用して、XML ドキュメントをクラウドにアップロードします。

package com.groupdocsdev.classes;

import java.io.File;

import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;

// Java を使用してファイルを Cloud Storage にアップロードする
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

その結果、アップロードされた XML ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。

Java を使用して XML ファイルを解析する

GroupDocs.Parser Cloud SDK for Java を使用して Java の XML ドキュメントからテキストを抽出する方法を示す手順とコード スニペットの例を次に示します。

  • まず、必要なクラスを Java ファイルにインポートします。
  • 次に、ParseApi クラスのインスタンスを作成します。
  • 3 番目に、FileInfo クラスのインスタンスを作成します。
  • 次に、XML ファイルへのパスを入力として設定します。
  • 次に、TextOptions() クラスのインスタンスを作成します。
  • 次に、setFileInfoメソッドにfileInfoを代入します。
  • ここで、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
  • 最後に、ParseApi.text() メソッドを呼び出して TextRequest パラメーターを渡して結果を取得します。

次のコード サンプルは、REST API を使用して Java でテキストを抽出し、XML ドキュメントを解析する方法を示しています。

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;

// Java で XML ファイルからテキストを抽出する方法。
public class App {

	public static void main(String[] args) {
		
		// Parse APIのインスタンスを作成する
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 設定を準備する
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.xml");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// 出力ファイルのパスを取得する
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

以下の画像で出力を確認できます。

Java XML ドキュメントからテキストを抽出する

Java で XML ドキュメントからテキストを抽出する

無料のオンライン XML パーサー

オンラインで XML からテキストを無料で抽出する最良の方法は何ですか? オンライン XML パーサー ソフトウェア を試して XML ファイルをスクレイピングしてください。この XML パーサー ツールは、前述の Java パーサー ライブラリを使用して開発されています。

結論

結論として、開発者は GroupDocs.Parser Cloud SDK for Java を使用してデータ抽出プロセスを簡素化し、XML ドキュメント内のデータに効率的にアクセスできます。この記事から学んだことは次のとおりです。

  • REST APIを使用してJavaのXMLドキュメントからすべてのテキストを抽出する方法。
  • Java を使用してプログラムで XML ファイルをクラウドにアップロードします。
  • XML ドキュメントを解析するためのオンライン XML 抽出ツール。

さらに、GroupDocs.Parser Cloud API の詳細については、ドキュメント を使用して学習できます。また、ブラウザーを通じて API を直接視覚化し操作できるようにする API リファレンス セクションも提供しています。 Java SDK の完全なソース コードは Github で無料で入手できます。

最後に、私たちはさまざまなファイル形式で新しいブログ記事を書き続け、REST API を使用して解析します。最新の更新情報については、お問い合わせください。

質問する

XML データ パーサーに関して質問や混乱がある場合は、フォーラム 経由でお気軽にお問い合わせください。

よくある質問

Java を使用して XML ファイルからすべてのテキストを抽出するにはどうすればよいですか?

まず ParserApi クラスを初期化し、GroupDocs.Parser Cloud SDK for Java を使用して API 資格情報を設定します。次に、ExtractOptions オブジェクトを作成し、FileInfo を使用して XML ドキュメント ファイルを指定します。最後に、extract メソッドを呼び出し、オプションを渡し、getText メソッドを使用して抽出されたテキストを取得します。

Java を使用して XML ドキュメントを解析するにはどうすればよいですか?

Java アプリケーションで GroupDocs.Parser Cloud SDK for Java を使用して XML ファイルを解析できます。この強力な SDK は、Java で XML ファイルからデータを抽出するための効率的かつ簡単な方法を提供します。

関連項目

役立つと思われる関連記事をいくつか紹介します。