XML(eXtensible Markup Language) は、構造化情報を保存および交換するための一般的なデータ形式です。 Web開発、データストレージ、データ転送など、さまざまな分野で広く使用されています。 XML ファイルからテキストを抽出することは、さまざまな理由から重要です。これにより、XML ドキュメント内に含まれる実際のデータにアクセスして操作できるようになります。テキストを抽出することで、データ分析、データ変換、データ統合などのさまざまな操作を実行できます。この記事では、REST API を使用して Python で XML からテキストを抽出する方法を説明します。
この記事では次のトピックについて説明します。
XML ドキュメントを解析するための Python REST API と SDK インストール
GroupDocs.Parser Cloud SDK for Python は、XML やその他のファイル形式からのテキストの抽出を簡素化する強力なツールです。ドキュメントの解析、テキスト抽出、メタデータ抽出などの幅広い機能を提供します。直感的な API を使用すると、開発者はテキスト抽出機能を Python アプリケーションに簡単に統合できます。また、クラウド API の ドキュメント パーサー ファミリ メンバー として、C# .NET、Java、PHP、Ruby、および Node.js SDK もサポートしています。 SDK を Python ベースのアプリケーションに統合して、開発プロセスを簡素化し、生産性を向上させることができます。
コンソールで次のコマンドを使用して XML から情報を抽出し、pip (Python 用パッケージ インストーラー) を使用して GroupDocs.Parser Cloud を Python プロジェクトにインストールします。
pip install groupdocs_parser_cloud
ここで、ダッシュボード からクライアント ID とクライアント シークレットを取得し、以下に示すコードを追加してください。
# groupdocs パーサー SDK をインポートする
import groupdocs_parser_cloud
# 無料登録後、https://dashboard.groupdocs.cloud から app_sid と app_key を取得します。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# ファイル API 構成を取得します。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
REST API を使用して Python で XML ファイルからすべてのテキストを抽出する
GroupDocs.Parser Cloud SDK for Python を使用して Python で XML ドキュメントからテキストを抽出するには、次の手順に従います。
ファイルをアップロードする
まず、以下のコード例を使用して、XML ドキュメントをクラウドにアップロードします。
# ファイルAPIのインスタンスを作成する
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# ファイルアップロードリクエストを呼び出す
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# ファイルをクラウドにアップロードする
response = file_api.upload_file(request)
print(response.uploaded)
その結果、アップロードされた XML ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。
Python を使用して XML データからすべてのテキストを抽出する
このセクションでは、GroupDocs.Parser Cloud SDK for Python を使用して Python で XML ドキュメントからテキストを抽出する方法を示す手順とサンプル コード スニペットを記述します。
- まず、ParseApiクラスのインスタンスを作成します。
- 次に、TextOptions() クラスのインスタンスを作成します。
- 3 番目に、FileInfo クラスのインスタンスを作成します。
- そして、それをテキスト オプションの fileInfo メソッドに割り当てます。
- 次に、XML ファイルへのパスを入力として設定します。
- ここで、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
- 最後に、ParseApi.text() メソッドを呼び出して TextRequest パラメーターを渡して結果を取得します。
次のコード サンプルは、REST API を使用して Python で XML ドキュメントからテキストを抽出する方法を示しています。
# REST APIを使用してPythonでXMLからテキストを抽出する方法
try:
# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
以下の画像で出力を確認できます。
無料のオンラインドキュメントパーサー
オンラインで XML からテキストを無料で抽出するにはどうすればよいですか? XML ファイルからデータを抽出するには、オンライン XML パーサー ソフトウェア を試してください。この XML パーサー ツールは、前述の Python パーサー ライブラリを使用して開発されています。
結論
結論として、XML ファイルからテキストを抽出することは、XML データを操作する際の基本的なタスクです。 Python を GroupDocs.Parser Cloud SDK と組み合わせることで、XML ファイルからテキストを抽出するための信頼性の高い効率的なソリューションが提供されます。この記事から学んだことは次のとおりです。
- REST API を使用して Python で XML ドキュメントからすべてのテキストを抽出する方法。
- Python を使用してプログラムで XML ファイルをクラウドにアップロードします。
- XML ドキュメントを解析するためのオンライン XML データ抽出ソフトウェア。
さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API について詳しく学ぶことができます。また、ブラウザーを通じて直接 API を視覚化し操作できるようにする API リファレンス セクションも提供しています。 Python SDK の完全なソース コードは Github で無料で入手できます。
最後に、私たちはさまざまなファイル形式で新しいブログ記事を書き続け、REST API を使用して解析します。最新の更新情報については、お問い合わせください。
質問する
XML ドキュメント パーサーに関して質問や混乱がある場合は、フォーラム 経由でお気軽にお問い合わせください。
よくある質問
XML ファイルからテキストを抽出する必要があるのはなぜですか?
XML ファイルからテキストを抽出すると、XML ドキュメント内に含まれる実際のデータにアクセスして操作できるようになります。
Python を使用して XML ファイルからテキストを抽出するにはどうすればよいですか?
強力なテキスト抽出機能を提供する GroupDocs.Parser Cloud SDK for Python を使用して、XML ファイルからテキストを抽出できます。
GroupDocs.Parser Cloud SDK for Python を使用して XML ファイルからメタデータを抽出することはできますか?
はい、GroupDocs.Parser Cloud SDK for Python は XML ファイルからのメタデータの抽出をサポートしています。作成者、作成日、変更日などのメタデータ情報を取得できます。
GroupDocs.Parser Cloud SDK for Python を使用して XML ファイルに埋め込まれた画像を抽出できますか?
はい、GroupDocs.Parser Cloud SDK for Python を使用すると、XML ファイルに埋め込まれた画像を抽出し、異なる形式に変換できます。
関連項目
役立つと思われる関連記事をいくつか紹介します。