ドキュメントの解析は、さまざまなドキュメント形式からのデータ抽出が必要な多くの業界で重要なタスクです。 Word ドキュメントを操作する場合、画像の抽出は、コンテンツ分析、画像認識、データの視覚化などの場合に特に役立ちます。大きな Word 文書から画像を手動で抽出するには時間がかかる場合があります。したがって、画像抽出プロセスを自動化すると、時間と労力を節約できます。この記事では、Java でプログラムによって Word 文書から画像を抽出する方法を説明します。
この記事では次のトピックについて説明します。
- Word ドキュメントおよび SDK インストールから画像を抽出するための Java REST API
- REST API を使用して Java で Word ドキュメントからすべての画像を抽出する方法
- ページ番号を使用して Java の Word ファイルから特定の画像を抽出する
Word ドキュメントおよび SDK インストールから画像を抽出するための Java REST API
GroupDocs.Parser Cloud SDK for Java は、Word ドキュメントを含むさまざまな ドキュメント形式 からデータを解析および抽出するためのシンプルかつ効率的な方法を提供する強力な Java ライブラリです。ドキュメント解析のための幅広い機能を提供し、開発者が画像、テキスト、メタデータなどを抽出できるようにします。 GroupDocs.Parser は、クラウド API の ドキュメント パーサー ファミリ メンバー として C#.NET、Java、PHP、Ruby、および Python SDK も提供します。
開始するには、Java プロジェクトに GroupDocs.Parser Cloud SDK を含める必要があります。 API の JAR ファイルを ダウンロード することも、Maven を使用して次のリポジトリと依存関係をプロジェクトの pom.xml ファイルに追加してインストールすることもできます。
Maven リポジトリ:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven の依存関係:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
次に、GroupDocs Web サイトで無料トライアル アカウントに サインアップするか、サブスクリプション プランを購入して API キーを取得する必要があります。クライアント ID とクライアント シークレットを取得したら、以下のコード スニペットを Java ベースのアプリケーションに追加します。
# 登録後、https://dashboard.groupdocs.cloud から client_id と client_secret を取得します。
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
REST API を使用して Java の Word ドキュメントからすべての画像を抽出する方法
GroupDocs.Parser Cloud SDK を使用して Java で Word 文書から画像を抽出するには、次の手順とコード スニペットの例に従います。
- まず、必要なクラスを Java ファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 3 番目に、FileInfo クラスのインスタンスを作成します。
- 次に、入力 Word ドキュメントへのパスを設定します。
- 次に、ImagesOptions() クラスのインスタンスを作成します。
- 次に、fileInfo を setFileInfo 画像オプションに割り当てます。
- ここで、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメーターを渡します。
- 最後に、ParseApi.images() メソッドを呼び出して ImagesRequest パラメーターを渡して結果を取得します。
次のコード サンプルは、REST API を使用して Java でオンラインの Word ドキュメントからすべての画像を抽出する方法を示しています。
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Java で Word 文書から画像を抽出する方法。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成する
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備する
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 出力ファイルのパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
ページ番号を使用して Java の Word ファイルから特定の画像を抽出する
このセクションでは、Java でプログラム的に Word 文書から特定の画像を抽出する手順とサンプル コード スニペットを記述します。
- まず、必要なクラスを Java ファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 3 番目に、FileInfo クラスのインスタンスを作成します。
- 次に、Word ファイルへのパスを入力として設定します。
- 次に、ImagesOptions() クラスのインスタンスを作成します。
- 次に、fileInfo を setFileInfo 画像オプションに割り当てます。
- 次に、setStartPageNumber と setCountPagesToExtract の値を指定します。
- ここで、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメーターを渡します。
- 最後に、ParseApi.images() メソッドを呼び出して ImagesRequest パラメーターを渡して結果を取得します。
次のコード サンプルは、REST API を使用して Java でページ範囲ごとに Word ファイルから特定の画像を抽出する方法を示しています。
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Java でページ範囲ごとに Word ファイルからオンラインで画像を抽出します。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成する
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備する
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 出力ファイルのパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
無料のオンライン画像抽出ツール
オンラインで Word から画像を無料で抽出する最良の方法は何ですか? Word から画像を抽出するには、オンライン Word ドキュメント パーサー を試してください。この Word パーサー ツールは、上記の Java パーサー ライブラリを使用して開発されています。
結論
結論として、GroupDocs.Parser Cloud SDK は、Word 文書から画像を抽出し、正確な結果を保証しながら時間と労力を節約するための優れたソリューションです。この記事から学んだことは次のとおりです。
- REST APIを使用してJavaでプログラム的にWord DOCXからすべての画像を抽出する方法。
- REST APIを使用してJavaのWord文書から特定の画像を抽出する方法。
- Word 文書から画像を抽出するオンライン画像抽出ツール。
さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API の詳細を学ぶことができます。また、ブラウザーを通じて API を直接視覚化して操作できる API リファレンス セクションも提供しています。 Java SDK の完全なソース コードは Github で無料で入手できます。
最後に、私たちはさまざまなファイル形式で新しいブログ記事を書き続け、REST API を使用してそれらを解析します。最新の更新情報については、お問い合わせください。
質問する
文書から画像を抽出する方法についてご質問がある場合は、フォーラム経由でお気軽にお問い合わせください。
よくある質問
Java で Word 文書を解析するにはどうすればよいですか?
画像やテキストを抽出するには、まず GroupDocs.Parser Cloud SDK を使用して Word ドキュメントをロードして解析する必要があります。このプロセスには、ファイル パスを指定し、Parse メソッドを呼び出してドキュメントを解析することが含まれます。
GroupDocs.Parser Cloud SDK は他のドキュメント形式から画像を抽出できますか?
はい、GroupDocs.Parser Cloud SDK for Java は、Word、PDF、Excel、PowerPoint などを含むさまざまなドキュメント形式からの画像の抽出をサポートしています。
GroupDocs.Parser Cloud SDK は 1 つの Word 文書から複数の画像を抽出できますか?
はい、SDK は 1 つの Word 文書から複数の画像を抽出し、文書内に含まれるすべての画像を提供できます。
GroupDocs.Parser Cloud SDK は抽出プロセス中に元の画質を維持しますか?
はい、GroupDocs.Parser Cloud SDK for Java は、Word 文書から画像を抽出する際に元の画像品質を保持します。
関連項目
役立つと思われる関連記事をいくつか紹介します。