PDF ファイルパーサー – Java でオンラインで PDF ファイルから画像を抽出

PDF(Portable Document Format) は、オンラインでドキュメントを共有および保存するために広く使用されているファイル形式です。多くの場合、テキスト、画像、表など、さまざまなタイプのコンテンツが含まれます。 PDF ファイルから画像などの特定のコンテンツを抽出することは、信頼できるツールやライブラリがなければ困難な作業になる可能性があります。そのようなツールの 1 つは Java 用 GroupDocs.Parser Cloud SDK で、PDF ファイルから画像を抽出するシームレスかつ効率的な方法を提供します。この記事では、REST API を使用して Java で PDF ファイルから画像を抽出する方法を説明します。

この記事では次のトピックについて説明します。

PDF および SDK インストールから画像を分離するための Java REST API

GroupDocs.Parser Cloud SDK for Java は、PDF ファイルを含むさまざまな ドキュメント形式 からデータを解析および抽出するためのシンプルかつ効率的な方法を提供する、強力で汎用性の高い Java ライブラリです。ドキュメント解析のための幅広い機能を提供し、開発者が画像、テキスト、メタデータ、その他のコンテンツを抽出できるようにします。 GroupDocs.Parser は、クラウド API の ドキュメント パーサー ファミリ メンバー として C#.NET、Java、PHP、Ruby、および Python SDK も提供します。

開始するには、Java プロジェクトに GroupDocs.Parser Cloud SDK を含める必要があります。 API の JAR ファイルを ダウンロード するか、Maven を使用して次のリポジトリと依存関係をプロジェクトの pom.xml ファイルに追加してインストールできます。

Maven リポジトリ:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven の依存関係:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

次に、GroupDocs Web サイトで無料トライアル アカウントに サインアップするか、サブスクリプション プランを購入して API キーを取得する必要があります。クライアント ID とクライアント シークレットを取得したら、以下のコード スニペットを Java ベースのアプリケーションに追加します。

# 登録後、https://dashboard.groupdocs.cloud から client_id と client_secret を取得します。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API を使用して Java で PDF ファイルからすべての画像を抽出する方法

ここで、GroupDocs.Parser Cloud SDK for Java を使用して PDF ファイルから画像を抽出する手順とサンプル コード スニペットを作成しましょう。

  • まず、必要なクラスを Java ファイルにインポートします。
  • 次に、ParseApi クラスのインスタンスを作成します。
  • 3 番目に、FileInfo クラスのインスタンスを作成します。
  • 次に、入力 PDF ドキュメントへのパスを設定します。
  • 次に、ImagesOptions() クラスのインスタンスを作成します。
  • 次に、fileInfo を setFileInfo 画像オプションに割り当てます。
  • ここで、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメーターを渡します。
  • 最後に、ParseApi.images() メソッドを呼び出して ImagesRequest パラメーターを渡して結果を取得します。

次のコード サンプルは、REST API を使用して Java でオンラインで PDF ファイルからすべての画像を抽出する方法を示しています。

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Java で PDF ファイルから画像を抽出する方法。
public class App {

	public static void main(String[] args) {
		
		// Parse APIのインスタンスを作成する
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 設定を準備する
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 出力ファイルのパスを取得する
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

ページ番号を使用して Java で PDF ファイルから特定の画像を抽出する

このセクションでは、Java でプログラムによって PDF ファイルから特定の画像を抽出する手順とコード スニペットを説明します。

  • まず、必要なクラスを Java ファイルにインポートします。
  • 次に、ParseApi クラスのインスタンスを作成します。
  • 3 番目に、FileInfo クラスのインスタンスを作成します。
  • 次に、入力 PDF ドキュメントへのパスを設定します。
  • 次に、ImagesOptions() クラスのインスタンスを作成します。
  • 次に、fileInfo を setFileInfo 画像オプションに割り当てます。
  • 次に、setStartPageNumber と setCountPagesToExtract の値を指定します。
  • ここで、ImagesRequest() クラスのインスタンスを作成し、ImagesOptions パラメーターを渡します。
  • 最後に、ParseApi.images() メソッドを呼び出して ImagesRequest パラメーターを渡して結果を取得します。

次のコード サンプルは、REST API を使用して Java でページ範囲ごとに PDF ファイルから特定の画像を抽出する方法を示しています。

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Java でページ範囲ごとに PDF ファイルからオンラインで画像を抽出します。
public class App {

	public static void main(String[] args) {
		
		// Parse APIのインスタンスを作成する
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 設定を準備する
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 出力ファイルのパスを取得する
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

無料のオンライン画像抽出ツール

PDF からオンラインで無料で画像を抽出する最良の方法は何ですか? PDF ファイルから画像を抽出するには、オンライン PDF ファイル パーサー を試してください。この PDF パーサー ソフトウェアは、前述のパーサー ライブラリーを使用して Java を使用して開発されています。

結論

結論として、GroupDocs.Parser Cloud SDK for Java は、PDF ファイルから画像を簡単に抽出するための信頼性が高く効率的なソリューションを提供します。この記事から学んだことは次のとおりです。

  • REST APIを使用してJavaでプログラム的にPDFファイルからすべての画像を抽出する方法。
  • REST APIを使用してJavaでPDFドキュメントから特定の画像を抽出する方法。
  • PDF ドキュメントから画像を抽出するオンライン画像抽出ツール。

さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API について詳しく学ぶことができます。また、ブラウザーを通じて直接 API を視覚化し操作できるようにする API リファレンス セクションも提供しています。 Java SDK の完全なソース コードは Github で無料で入手できます。

最後に、私たちはさまざまなファイル形式で新しいブログ記事を書き続け、REST API を使用してそれらを解析します。最新の更新情報については、お問い合わせください。

質問する

文書の解析方法についてご質問がある場合は、フォーラム 経由でお気軽にお問い合わせください。

よくある質問

Java を使用して PDF ファイルを解析するにはどうすればよいですか?

画像、テキスト、またはメタデータを抽出するには、まず GroupDocs.Parser Cloud SDK を使用して PDF ドキュメントをロードし、解析する必要があります。このプロセスには、ファイル パスを指定し、Parse メソッドを呼び出して PDF ファイルを解析することが含まれます。

GroupDocs.Parser Cloud SDK for Java は PDF 以外のファイル形式をサポートしていますか?

はい、PDF ファイルのほかに、GroupDocs.Parser Cloud SDK for Java は、Word、Excel、PowerPoint, HTML などを含むさまざまなドキュメント形式からの画像の抽出をサポートしています。

GroupDocs.Parser Cloud SDK for Java を使用して PDF ファイルからすべての画像を抽出できますか?

はい、GroupDocs.Parser Cloud SDK for Java を使用して PDF ファイルからすべての画像を抽出できます。

関連項目

役立つと思われる関連記事をいくつか紹介します。