
ドキュメントの解析は、さまざまなドキュメント形式からデータ抽出が必要とされる多くの業界において重要な作業です。Word ドキュメントを扱う際には、コンテンツ分析、画像認識、またはデータビジュアル化などのケースで画像を抽出することが特に有用です。大規模な Word ドキュメントから画像を手動で抽出することは時間がかかる場合があります。したがって、画像抽出プロセスを自動化することで、時間と労力を節約できます。この記事では、Java を使ってプログラム的に Word ドキュメントから画像を抽出する方法を示します。
この記事では、以下のトピックが取り上げられます:
- Java REST API to Extract Images from Word Documents and SDK Installation
- Word 文書から Java を使用して REST API ですべての画像を抽出する方法
- Word ファイルから特定の画像をページ番号を使って Java で抽出する
Java REST API to Extract Images from Word Documents and SDK Installation
GroupDocs.Parser Cloud SDK for Java は、さまざまな document formats からデータを解析し抽出するためのシンプルで効率的な方法を提供する強力な Java ライブラリです。ドキュメント解析のための幅広い機能を提供し、開発者は画像、テキスト、メタデータなどを抽出できます。GroupDocs.Parser は、Cloud APIs のための document parser family members として C#.NET、Java、PHP、Ruby、Python SDK も提供しています。
始めるには、GroupDocs.Parser Cloud SDK を Java プロジェクトに含める必要があります。API の JAR ファイルを ダウンロード するか、以下のリポジトリと依存関係をプロジェクトの pom.xml ファイルに追加することで Maven を使用してインストールすることができます:
Maven リポジトリ:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven 依存関係:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
次に、sign upして無料トライアルアカウントを取得するか、purchase a subscription planをGroupDocsのウェブサイトで購入し、get your API keyを取得する必要があります。クライアントIDとクライアントシークレットを取得したら、以下のコードスニペットをJavaベースのアプリケーションに追加します:
# 登録後、https://dashboard.groupdocs.cloud から clientid と clientsecret を取得してください。
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Word ドキュメントからすべての画像を抽出する方法を Java で REST API を使用して
Word 文書から画像を抽出するために、Java で GroupDocs.Parser Cloud SDK を使用するには、以下の手順と例のコードスニペットに従ってください:
- まず、必要なクラスをJavaファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 第三に、FileInfo クラスのインスタンスを作成します。
- 次に、入力Word文書へのパスを設定します。
- 次に、ImagesOptions() クラスのインスタンスを作成します。
- 次に、fileInfoをsetFileInfo画像オプションに割り当てます。
- 今、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメータを渡します。
- 最後に、ParseApi.images() メソッドを呼び出し、ImagesRequest パラメータを渡すことで結果を取得します。
次のコードサンプルは、REST APIを使用してJavaでオンラインのWord文書からすべての画像を抽出する方法を示しています:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Word文書から画像をJavaで抽出する方法。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成します。
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備してください。
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 出力ファイルパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Wordファイルから特定の画像をページ番号を使用してJavaで抽出する
このセクションでは、JavaでWord文書から特定の画像をプログラムで抽出するための手順とコードの例を記述します:
- まず、必要なクラスをJavaファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 第三に、FileInfo クラスのインスタンスを作成します。
- 次に、Wordファイルへのパスを入力として設定します。
- 次に、ImagesOptions() クラスのインスタンスを作成します。
- 次に、fileInfoをsetFileInfo画像オプションに割り当てます。
- 次に、 setStartPageNumber と setCountPagesToExtract の値を提供してください。
- 今、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメータを渡します。
- 最終的に、ParseApi.images() メソッドを呼び出し、ImagesRequest パラメータを渡すことで結果を取得します。
以下のコードサンプルは、REST APIを使用してJavaでページ範囲に基づいてWordファイルから特定の画像を抽出する方法を示しています:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Wordファイルからページ範囲でオンラインで画像を抽出する Java。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成します
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備してください。
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 出力ファイルパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
無料のオンライン画像抽出ツール
Word Onlineから画像を無料で抽出する最良の方法は何ですか?画像をWordから抽出するには、オンラインWordドキュメントパーサーを試してみてください。このWordパーサーツールは、上記のJavaパーサーライブラリを使用して開発されています。
結論
結論として、GroupDocs.Parser Cloud SDKは、Word文書から画像を抽出するための優れたソリューションであり、正確な結果を保証しつつ、時間と労力を節約します。以下は、この記事から学んだことです:
- how to extract all images from Word DOCX programmatically in Java using REST API;
- how to extract specific images from Word documents in Java using REST API;
- および Word 文書から画像を抽出するためのオンライン画像抽出ツール。
さらに、documentationを使用してGroupDocs.Parser Cloud APIについて詳しく学ぶことができます。また、ブラウザを介してAPIを直接視覚化し、対話できるAPI Referenceセクションも提供しています。Java SDKの完全なソースコードは、Githubで無償で入手できます。
最後に、私たちはさまざまなファイル形式に関する新しいブログ記事を執筆し、REST APIを使用してそれらを解析し続けています。最新の更新情報については、お気軽にお問い合わせください。
質問をしてください
ドキュメントから画像を抽出する方法に関して質問がある場合は、ぜひ forum を通じてお問い合わせください。
FAQs
Word 文書を Java でどのように解析しますか?
画像やテキストを抽出するには、まず GroupDocs.Parser Cloud SDK を使用して Word ドキュメントをロードおよび解析する必要があります。このプロセスでは、ファイルパスを指定し、Parse メソッドを呼び出してドキュメントを解析します。
GroupDocs.Parser Cloud SDK は他のドキュメント形式から画像を抽出できますか?
はい、 GroupDocs.Parser Cloud SDK for Java は、Word、PDF、Excel、PowerPointなどのさまざまな文書形式から画像を抽出することをサポートしています。
グループドックス・パーサー クラウド SDKは、単一のWord文書から複数の画像を抽出できますか?
はい、SDK は1つのWord文書から複数の画像を抽出でき、文書内に含まれるすべての画像を提供します。
GroupDocs.Parser Cloud SDK は、抽出プロセス中に元の画像品質を保持しますか?
はい、GroupDocs.Parser Cloud SDK for Java は、Wordドキュメントから画像を抽出する際に元の画像品質を保持します。
See Also
関連する記事をいくつかご紹介します。