ドキュメント解析 – Java で PDF ファイルからテキストを抽出

PDF ファイルからプログラムでテキストを抽出する必要がある状況に遭遇したことがありますか?プログラムによって PDF ファイルからテキストを抽出することは、特に大きなドキュメントを扱う場合には複雑な作業になる可能性があります。 Java 開発者で信頼性の高いソリューションを探している場合は、GroupDocs.Parser Cloud SDK for Java が PDF ファイルからテキストを抽出する効率的な方法を提供します。この記事では、REST API を使用して Java で PDF ファイルからテキストを抽出する方法を説明します。

この記事では次のトピックについて説明します。

PDF ファイルからテキストを抽出するための Java REST API と SDK インストール

GroupDocs.Parser Cloud SDK for Java は、包括的な PDF 解析機能を提供する、強力でユーザーフレンドリーな機能豊富なソフトウェア開発キットです。包括的な API セットを使用すると、50 種類を超える ドキュメント形式 からテキスト、メタデータ、画像を簡単に抽出し、データを解析できます。また、クラウド API の ドキュメント パーサー ファミリ メンバー として C# .NET、Java、PHP、Ruby、Python SDK も提供します。 SDK を Java ベースのアプリケーションに統合して、開発プロセスを簡素化し、生産性を向上させることができます。

API の JAR ファイルを ダウンロード することも、Maven を使用して次のリポジトリと依存関係をプロジェクトの pom.xml ファイルに追加してインストールすることもできます。

Maven リポジトリ:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven の依存関係:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

次に、GroupDocs Web サイトで無料トライアル アカウントに サインアップするか、サブスクリプション プランを購入して API キーを取得します。クライアント ID とクライアント シークレットを取得したら、以下のコード スニペットを Java ベースのアプリケーションに追加します。

# 登録後、https://dashboard.groupdocs.cloud から client_id と client_secret を取得します。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API を使用して Java で PDF ファイルからすべてのテキストを抽出する方法

GroupDocs.Parser Cloud SDK を使用して Java で PDF ファイルからテキストを抽出するプロセスは簡単です。その方法は次のとおりです。

ファイルをアップロードする

まず、以下のコード例を使用して、PDF ドキュメントをクラウドにアップロードします。

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Java を使用してファイルを Cloud Storage にアップロードする
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

その結果、アップロードされた PDF ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。

Java で PDF ドキュメントからテキストを抽出する

GroupDocs.Parser Cloud SDK for Java を使用して Java でプログラム的に PDF ファイルからすべてのテキストを抽出するには、次の手順とサンプル コード スニペットに従ってください。

  • まず、必要なクラスを Java ファイルにインポートします。
  • 次に、ParseApi クラスのインスタンスを作成します。
  • 3 番目に、FileInfo クラスのインスタンスを作成します。
  • 次に、PDF ファイルへのパスを入力として設定します。
  • 次に、TextOptions() クラスのインスタンスを作成します。
  • 次に、setFileInfoメソッドにfileInfoを代入します。
  • ここで、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
  • 最後に、ParseApi.text() メソッドを呼び出して TextRequest パラメーターを渡して結果を取得します。

次のコード サンプルは、Java の REST API を使用して PDF ファイルからすべてのテキストを抽出する方法を示しています。

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java で PDF ドキュメントからテキストを抽出する方法。
public class App {

	public static void main(String[] args) {
		
		// Parse APIのインスタンスを作成する
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 設定を準備する
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// 出力ファイルのパスを取得する
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

以下の画像で出力を確認できます。

Java PDFドキュメントからテキストを抽出

Java で PDF ドキュメントからテキストを抽出する

Java で PDF からページ番号範囲で特定のテキストを抽出する

このセクションでは、Java でプログラム的に PDF ファイルから特定のテキストを抽出するための詳細な手順とコード スニペットの例を示します。

  • まず、必要なクラスを Java ファイルにインポートします。
  • 次に、ParseApi クラスのインスタンスを作成します。
  • 3番目に、FileInfoクラスのインスタンスを作成します。
  • 次に、PDF ファイルへのパスを入力として設定します。
  • 次に、TextOptions() クラスのインスタンスを作成します。
  • ここで、setStartPageNumber と setCountPagesToExtract の値を指定します。
  • 次に、setFileInfo メソッドに fileInfo を代入します。
  • ここで、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
  • 最後に、ParseApi.text() メソッドを呼び出して TextRequest パラメーターを渡して結果を取得します。

次のコード サンプルは、REST API を使用して Java でページ範囲番号によって PDF ファイルから特定のテキストを抽出する方法を示しています。

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java でページ範囲番号を使用して PDF ファイルからテキストを抽出する方法。
public class App {

	public static void main(String[] args) {
		
		// Parse APIのインスタンスを作成する
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 設定を準備する
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// 出力ファイルのパスを取得する
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

無料のオンラインドキュメントパーサー

オンラインで無料でPDFからテキストを抽出する最良の方法は何ですか? オンライン PDF ドキュメント パーサー ソフトウェア を試して、PDF からテキストを抽出してください。この PDF パーサー ツールは、上記の Java パーサー ライブラリを使用して開発されています。

結論

結論として、GroupDocs.Parser Cloud SDK for Java は、テキスト、メタデータ、画像を効率的に抽出できる Java 開発者にとって貴重なツールです。この記事から学んだことは次のとおりです。

  • Java の REST API を使用して PDF ファイルからすべてのテキストを抽出する方法。
  • Java を使用してプログラムで PDF ファイルをクラウドにアップロードします。
  • REST APIを使用してJavaでPDFからコンテンツを抽出する方法。
  • PDF ドキュメントを解析するためのオンライン PDF テキスト抽出ツール。

さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API について詳しく学ぶことができます。また、ブラウザーを通じて API を直接視覚化して操作できる API リファレンス セクションも提供しています。 Java SDK の完全なソース コードは Github で無料で入手できます。

最後に、私たちはさまざまなファイル形式で新しいブログ記事を書き続け、REST API を使用して解析します。最新の更新情報については、お問い合わせください。

質問する

PDF ファイルからテキストを抽出する方法について質問や混乱がある場合は、フォーラム 経由でお気軽にお問い合わせください。

よくある質問

Java を使用して PDF ファイルからすべてのテキストを抽出するにはどうすればよいですか?

Java アプリケーションで GroupDocs.Parser Cloud SDK for Java を使用すると、PDF ファイルからすべてのテキストを抽出できます。この強力な SDK は、Java を使用して PDF ファイルからテキストを抽出する効率的かつ簡単な方法を提供します。

GroupDocs.Parser Cloud SDK for Java を使用して、パスワードで保護された PDF ファイルからテキストを抽出できますか?

はい、SDK はパスワードで保護された PDF ファイルからのテキスト抽出をサポートしています。抽出プロセス中にオプションとしてパスワードを指定できます。

PDF ファイル内の特定のページからテキストを抽出することはできますか?

はい、GroupDocs.Parser Cloud SDK for Java を使用すると、テキストを抽出するページ範囲番号を指定できます。このようにして、PDF ドキュメントの特定のセクションからテキストを簡単に抽出できます。

関連項目

役立つと思われる関連記事をいくつか紹介します。