
あなたは、プログラム的に PDF ファイルからテキストを抽出する必要がある状況に遭遇したことがありますか? PDFファイルからテキストをプログラム的に抽出することは、特に大きな文書を扱う際には複雑な作業です。もしあなたがJava開発者であり、信頼できるソリューションを探しているなら、GroupDocs.Parser Cloud SDK for JavaはPDFファイルからテキストを抽出する効率的な方法を提供します。この記事では、REST APIを使用してJavaでPDFファイルからテキストを抽出する方法を探っていきます。
この記事では、次のトピックが含まれます:
- Java REST API to Extract Text from PDF Files and SDK Installation
- PDF ファイルからテキストを REST API を使用して Java で抽出する方法
- PDFから特定のテキストをJavaでページ番号範囲で抽出する
Java REST API to Extract Text from PDF Files and SDK Installation
GroupDocs.Parser Cloud SDK for Java は、包括的なPDFパース機能を提供する強力で使いやすい多機能なソフトウェア開発キットです。その包括的なAPIセットを使用すれば、50以上の文書フォーマットからテキスト、メタデータ、画像を effortlessly 抽出し、データをパースすることができます。また、Cloud APIのための文書パーサーファミリーメンバーとして、C# .NET、Java、PHP、Ruby、Python SDKも提供しています。SDK は、Javaベースのアプリケーションに統合して、開発プロセスを簡素化し、生産性を向上させることができます。
APIのJARファイルをダウンロードするか、次のリポジトリと依存関係をプロジェクトのpom.xmlファイルに追加することでMavenを使用してインストールできます:
Maven リポジトリ:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven 依存関係:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
次に、 sign up で無料トライアルアカウントに登録するか、 purchase a subscription plan をGroupDocsのウェブサイトで購入して、 get your API key を取得してください。クライアントIDとクライアントシークレットを取得したら、以下のコードスニペットをJavaベースのアプリケーションに追加してください:
# 登録後に https://dashboard.groupdocs.cloud から clientid と clientsecret を取得してください。
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
PDFファイルからすべてのテキストをJavaでREST APIを使用して抽出する方法
Java を使用して GroupDocs.Parser Cloud SDK から PDF ファイルのテキストを抽出するのは簡単なプロセスです。方法は以下の通りです:
ファイルをアップロード
最初に、以下のコード例を使用してPDF文書をクラウドにアップロードします:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Cloud Storage にファイルをアップロードする Java 使用する
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
その結果、アップロードされたPDFファイルは、あなたのクラウドのダッシュボードの [files section][https://dashboard.groupdocs.cloud/files] で利用可能になります。
PDFドキュメントからテキストを抽出する Java
手順に従い、GroupDocs.Parser Cloud SDK for Javaを使用してJavaでPDFファイルからすべてのテキストをプログラム的に抽出するためのコード例を以下に示します。
- まず、必要なクラスをJavaファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 第三に、FileInfo クラスのインスタンスを作成します。
- 次に、PDFファイルへのパスを入力として設定します。
- 次に、TextOptions() クラスのインスタンスを作成します。
- 次に、fileInfoをsetFileInfoメソッドに割り当てます。
- 今、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
- 最後に、 ParseApi.text() メソッドを呼び出して、TextRequestパラメータを渡すことで結果を取得します。
以下のコードサンプルは、JavaでREST APIを使用してPDFファイルからすべてのテキストを抽出する方法を示しています:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// PDFドキュメントからテキストをJavaで抽出する方法。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成します。
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備してください。
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// 出力ファイルパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
以下の画像で出力を確認できます:

PDFドキュメントからテキストを抽出する Java で
PDFからページ番号範囲に基づいて特定のテキストを抽出するJava
このセクションでは、Javaでプログラム的にPDFファイルから特定のテキストを抽出するためのステップバイステップの手順とコードスニペットの例を提供します:
- まず、必要なクラスをJavaファイルにインポートします。
- 次に、ParseApi クラスのインスタンスを作成します。
- 第三に、FileInfo クラスのインスタンスを作成します。
- 次に、PDFファイルへのパスを入力として設定します。
- 次に、TextOptions() クラスのインスタンスを作成します。
- 今、 setStartPageNumber と setCountPagesToExtract の値を提供してください。
- その後、fileInfoをsetFileInfoメソッドに割り当てます。
- 今、TextRequest() クラスのインスタンスを作成し、TextOptions パラメーターを渡します。
- 最後に、ParseApi.text() メソッドを呼び出し、TextRequest パラメータを渡して結果を取得します。
次のコードサンプルは、REST APIを使用してJavaでページ範囲番号によってPDFファイルから特定のテキストを抽出する方法を示しています。
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// PDFファイルからページ範囲番号でテキストを抽出する方法をJavaで説明します。
public class App {
public static void main(String[] args) {
// Parse APIのインスタンスを作成します。
ParseApi apiInstance = new ParseApi(configuration);
try {
// 設定を準備してください。
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// 出力ファイルのパスを取得する
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
無料オンラインドキュメントパーサー
PDFからテキストを無料でオンラインで抽出する最良の方法は何ですか? PDFからテキストを抽出するには、オンライン PDF ドキュメント パーサー ソフトウェア を試してください。このPDFパーサーツールは、上記で言及したJavaパーサーライブラリを使用して開発されています。
結論
結論として、GroupDocs.Parser Cloud SDK for Javaは、Java開発者にとって貴重なツールであり、テキスト、メタデータ、および画像を効率的に抽出することができます。以下は、この記事から学んだことです:
- PDFファイルからテキストをすべて抽出する方法 REST API を使用して Java で。
- プログラムで PDF ファイルを Java を使用してクラウドにアップロードします。
- Javaを使用してREST APIからPDFのコンテンツを抽出する方法。
- オンラインPDFテキスト抽出ツールでPDF文書を解析します。
それに加えて、documentationを使用してGroupDocs.Parser Cloud APIについてもっと学ぶことができます。また、ブラウザを通じて直接APIを視覚化し、対話できるAPI Referenceセクションも提供しています。Java SDKの完全なソースコードはGithubで自由に入手できます。
Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.
Ask a question
PDFファイルからテキストを抽出する方法について、何か質問や混乱がある場合は、どうぞお気軽にフォーラムを通じてお問い合わせください。
FAQs
How do I extract all text from a PDF file using Java?
PDFファイルからすべてのテキストを抽出することができます GroupDocs.Parser Cloud SDK for Java あなたのJavaアプリケーションで。この強力なSDKは、Javaを使用してPDFファイルからテキストを抽出する効率的で簡単な方法を提供します。
私は GroupDocs.Parser Cloud SDK for Java を使用して、パスワードで保護された PDF ファイルからテキストを抽出できますか?
はい、SDK はパスワード保護されたPDFファイルからのテキスト抽出をサポートしています。抽出プロセス中にオプションとしてパスワードを提供できます。
特定のページからPDFファイル内のテキストを抽出することは可能ですか?
はい、GroupDocs.Parser Cloud SDK for Javaを使用すると、テキストを抽出したいページ範囲番号を指定できます。このようにして、PDFドキュメントの特定のセクションから簡単にテキストを抽出できます。
See Also
ここにあなたが役立つと思う関連する記事があります: