XMLからテキストを抽出するには、Pythonを使用してREST APIを利用します。

XML(eXtensible Markup Language) は、構造化された情報を保存および交換するための人気のデータフォーマットです。これは、ウェブ開発、データストレージ、データ転送など、さまざまな分野で広く使用されています。XMLファイルからテキストを抽出することは、多くの理由から重要です。これにより、XMLドキュメント内に含まれる実際のデータにアクセスし、操作することができます。テキストを抽出することで、データ分析、データ変換、データ統合など、さまざまな操作を実行できます。この記事では、REST APIを使用してPythonでXMLからテキストを抽出する方法を探ります。

この記事では以下のトピックが取り上げられます:

Python REST API to Parse XML Document and SDK Installation

GroupDocs.Parser Cloud SDK for Python は、XML やその他のファイル形式からのテキスト抽出を簡素化する強力なツールです。文書解析、テキスト抽出、メタデータ抽出など、幅広い機能を提供します。直感的な API を使用することで、開発者はテキスト抽出機能を Python アプリケーションに簡単に統合できます。また、C# .NET、Java、PHP、Ruby、Node.js SDK も document parser family members として Cloud API にサポートされています。SDK は、開発プロセスを簡素化し、生産性を向上させるために Python ベースのアプリケーションに統合できます。

GroupDocs.Parser Cloud を Python プロジェクトに pip (package installer for Python) を使用してインストールするには、コンソールで次のコマンドを実行し、XML から情報を抽出します:

pip install groupdocs_parser_cloud

今すぐ、ダッシュボードからクライアントIDとクライアントシークレットを取得し、以下のようにコードを追加してください:

# Import groupdocs parser SDK
import groupdocs_parser_cloud

# 無料登録後に https://dashboard.groupdocs.cloud から appsid と appkey を取得してください。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# File API の設定を取得します。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

XML ファイルから REST API を使用して Python で全テキストを抽出する

XML ドキュメントからテキストを抽出するために Python で GroupDocs.Parser Cloud SDK を使用するには、次の手順に従います:

  • Upload XML ファイルをクラウドにアップロードしてください。
  • Extract XML からすべてのテキストを Python を使用して抽出する

ファイルをアップロード

まず、以下に示すコード例を使用して、XMLドキュメントをクラウドにアップロードします。

# ファイルAPIのインスタンスを作成する
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# ファイルアップロードリクエストを呼び出す
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# クラウドにファイルをアップロードする
response = file_api.upload_file(request)
print(response.uploaded)

その結果、アップロードされた XML ファイルは、クラウドのダッシュボードの [files section][https://dashboard.groupdocs.cloud/files] で利用可能になります。

XMLデータからすべてのテキストをPythonを使用して抽出する

このセクションでは、PythonのGroupDocs.Parser Cloud SDKを使用してXMLドキュメントからテキストを抽出する方法を示す手順と例のコードスニペットを書きます:

  • まず、ParseApi クラスのインスタンスを作成します。
  • 次に、TextOptions() クラスのインスタンスを作成します。
  • 第三に、FileInfo クラスのインスタンスを作成します。
  • そして、それを text オプション fileInfo メソッドに割り当てます。
  • 次に、XMLファイルへのパスを入力として設定します。
  • 今、TextRequest()クラスのインスタンスを作成し、TextOptionsパラメータを渡します。
  • 最後に、ParseApi.text() メソッドを呼び出して、TextRequest パラメータを渡すことによって結果を取得します。

以下のコードサンプルは、REST APIを使用してPythonでXMLドキュメントからテキストを抽出する方法を示しています。

# Python を使用して REST API から XML からテキストを抽出する方法
try:
  # api 初期化
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # テキストオプションを定義する
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

以下の画像で出力を確認できます:

Python で XML ファイルからテキストを抽出する

XMLデータからすべてのテキストをPythonを使用して抽出します。

無料のオンライン文書パーサー

XMLからテキストをオンラインで無料で抽出するにはどうすればいいですか?データをXMLファイルから抽出するために、online XML parser softwareを試してみてください。このXMLパーサーツールは、上記で言及したPythonパーサーライブラリを使用して開発されています。

結論

結論として、XMLファイルからテキストを抽出することは、XMLデータを扱う際の基本的なタスクです。Pythonは、GroupDocs.Parser Cloud SDKと組み合わせることで、XMLファイルからテキストを抽出するための信頼性の高い効率的なソリューションを提供します。以下は、この記事から学んだことです:

  • How to extract all text from XML documents in Python using REST API.
  • プログラムで XML ファイルを Python を使用してクラウドにアップロードします。
  • オンラインXMLデータ抽出ソフトウェアは、XMLドキュメントを解析します。

さらに、ドキュメントを使用してGroupDocs.Parser Cloud APIについてさらに学ぶことができます。また、ブラウザを介して直接APIを視覚化し、インタラクションできるAPIリファレンスセクションも提供しています。Python SDKの完全なソースコードは、Githubで無料で入手できます。

Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.

Ask a question

XML ドキュメントパーサーについてご質問や疑問がある場合は、forum を通じてお気軽にお問い合わせください。

FAQs

なぜ私たちはXMLファイルからテキストを抽出する必要があるのですか?

XMLファイルからテキストを抽出することで、XMLドキュメント内に含まれる実際のデータにアクセスし、操作することができます。

How can I extract text from XML files using Python?

XMLファイルからテキストを抽出するには、GroupDocs.Parser Cloud SDK for Pythonを使用できます。これにより、強力なテキスト抽出機能が提供されます。

Is it possible to extract metadata from XML files using GroupDocs.Parser Cloud SDK for Python?

はい、 GroupDocs.Parser Cloud SDK for Python は、XMLファイルからメタデータを抽出することをサポートしています。著者、作成日、変更日などのメタデータ情報を取得できます。

XMLファイルに埋め込まれた画像をGroupDocs.Parser Cloud SDK for Pythonを使用して抽出できますか?

はい、 GroupDocs.Parser Cloud SDK for Python は、XMLファイルに埋め込まれた画像を抽出し、異なるフォーマットに変換することを可能にします。

See Also

ここにあなたが役に立てるかもしれない関連する記事があります: