さまざまな場合において、Word 文書を解析して画像やテキストを抽出することが必要になる場合があります。 Word 文書から画像とテキストを抽出すると、テキストを分析したり、再利用したり、他の文書に結合したりするのに役立ちます。 DOC または DOCX ファイルを簡単に解析し、すべての画像/テキストをプログラムでクラウド上に抽出できます。この記事では、Python の REST API を使用して Word ドキュメントを解析する方法を学びます。
この記事では次のトピックについて説明します。
- Word ドキュメント パーサー REST API と Python SDK
- Python の REST API を使用して Word ドキュメントを解析し、画像を抽出する
- Python の REST API を使用して Word ドキュメントからテキストを抽出する
Word ドキュメント パーサー REST API と Python SDK
Word ドキュメントの解析には、GroupDocs.Parser Cloud の Python SDK API を使用します。ドキュメントを解析するには、コンソールで次のコマンドを使用してインストールしてください。
pip install groupdocs_parser_cloud
上記の手順に従う前に、ダッシュボードからクライアント ID とシークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python の REST API を使用して Word ドキュメントを解析し、画像を抽出する
以下の手順に従って、Word 文書を解析し、プログラムで画像を抽出できます。
- DOCXファイルをクラウドにアップロード
- Python を使用して Word 文書から画像を抽出する
- 抽出した画像をダウンロード
ドキュメントをアップロードする
まず、以下のコード例を使用して、Word ドキュメント (DOCX) をクラウドにアップロードします。
# APIのインスタンスを作成する
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# アップロードファイルリクエストの作成
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# ファイルをアップロードする
response = file_api.upload_file(request)
その結果、アップロードされた DOCX ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。
Python を使用して Word 文書から画像を抽出する
以下の手順に従って、プログラムを使用して Word 文書からすべての画像を簡単に抽出できます。
- まず、ParseApi のインスタンスを作成します。
- 次に、FileInfo のインスタンスを作成します。
- 次に、入力 DOCX ファイルへのパスを設定します。
- 次に、ImageOptions のインスタンスを作成します。
- 次に、FileInfo を ImageOptions に割り当てます。
- その後、ImageOptionsを引数としてImageRequestを作成します。
- 最後に、ImageRequest で ParseApi.images() メソッドを呼び出して画像を抽出します。
次のコード サンプルは、Python のドキュメント解析 REST API を使用して DOCX ファイルから画像を抽出する方法を示しています。
# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 画像オプションを定義する
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 画像の作成リクエスト
request = groupdocs_parser_cloud.ImagesRequest(options)
# 画像を取得する
result = parseApi.images(request)
抽出した画像をダウンロードする
上記のコードサンプルは、Word ファイルパーサーで抽出した画像をクラウド上に保存します。以下のコード例を使用して、これらのイメージをダウンロードできます。
# APIの初期化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# ファイルリストを取得する
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# 画像を1枚ずつダウンロードする
for data in response.value:
# ダウンロードファイルリクエストの作成
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# ダウンロードファイル
response = file_api.download_file(request)
# ダウンロードしたファイルを作業ディレクトリに移動します
shutil.move(response, "C:\\Files\\parser\\")
Python の REST API を使用して Word ドキュメントからテキストを抽出する
以下に示す手順に従って、プログラムを使用して Word 文書からすべてのテキストを簡単に抽出できます。
- まず、ParseApi のインスタンスを作成します。
- 次に、FileInfo のインスタンスを作成します。
- 次に、入力 DOCX ファイルへのパスを設定します。
- 次に、TextOptions のインスタンスを作成します。
- 次に、FileInfo を TextOptions に割り当てます。
- その後、TextOptions を引数として TextRequest を作成します。
- 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。
次のコード例は、docx パーサー REST API を使用して DOCX ファイルからテキストを抽出する方法を示しています。
# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# テキストリクエストの作成
request = groupdocs_parser_cloud.TextRequest(options)
# テキストを取得する
result = parseApi.text(request)
print("Text: " + result.text)
オンラインで試す
文書解析ソフトウェアをオンラインで無料で使用するにはどうすればよいですか?上記の Word ドキュメント Python API を解析して開発された、次の無料のオンライン DOCX 解析ツールをお試しください。 https://products.groupdocs.app/parser/docx
結論
この記事では、クラウド上の Word パーサーを使用して Word 文書を解析する方法を学びました。 parse docx Python を使用して DOCX ファイルから画像とテキストを抽出する方法についても説明しました。この記事では、プログラムで DOCX ファイルをクラウドにアップロードし、抽出された画像をクラウドからダウンロードする方法についても説明しました。さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API について詳しく学ぶことができます。また、API リファレンス セクションも提供されており、ブラウザーを通じて直接 API を視覚化して操作できるようになります。文書の解析およびファイルの解析に関して不明な点がある場合は、お気軽に フォーラム までお問い合わせください。