Node.js の REST API を使用して PDF からテキストを抽出する

PDF ドキュメントを簡単に解析し、クラウド上でプログラムによってすべてのテキストを抽出できます。この記事では、Node.js の REST API を使用して PDF ドキュメントからテキストを抽出する方法を学習します。

この記事では次のトピックについて説明します。

テキストを抽出するための PDF パーサー REST API と Node.js SDK

PDF ドキュメントを解析するには、GroupDocs.Parser Cloud の Node.js SDK API を使用します。 50 種類を超える サポートされているドキュメント形式 のデータを解析できます。また、Node.js アプリケーション内の ZIP アーカイブ、OST メール データ ファイル、電子書籍、マークアップ、PDF ポートフォリオなどのコンテナーの解析もサポートします。 SDK を使用すると、テンプレートによってテキスト、画像を抽出し、データを解析できます。また、クラウド API の ドキュメント パーサー ファミリ メンバー として、.NET、Java、PHP、Ruby、および Python SDK も提供します。

コンソールで次のコマンドを使用して、GroupDocs.Parser Cloud を Node.js アプリケーションにインストールできます。

npm install groupdocs-parser-cloud

上記の手順に従う前に、ダッシュボードからクライアント ID とシークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Node.js の REST API を使用して PDF からテキストを抽出する

以下の簡単な手順に従って、PDF ドキュメントからテキストを抽出できます。

ドキュメントをアップロードする

まず、以下のコード例を使用して、PDF ドキュメントをクラウドにアップロードします。

// FileApi を構築する
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // ファイルアップロードリクエストの作成
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // ファイルをアップロードする
  fileApi.uploadFile(request);
});

その結果、アップロードされた PDF ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。

Node.js を使用して PDF ドキュメントからテキストを抽出する

以下の手順に従って、PDF ドキュメントからすべてのテキストをプログラムで簡単に抽出できます。

  • ParseApi のインスタンスを作成します。
  • FileInfo のインスタンスを作成します。
  • 次に、PDF ファイルへのパスを設定します。
  • TextOptions のインスタンスを作成します。
  • 次に、FileInfo を TextOptions に割り当てます。
  • ここで、TextOptions を使用して TextRequest のインスタンスを作成します。
  • 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。

次のコード サンプルは、Node.js の REST API を使用して PDF ドキュメントからすべてのテキストを抽出する方法を示しています。

// APIの初期化
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 入力ファイル
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// テキストオプションを定義する
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// テキストリクエストの作成
let request = new groupdocs_parser_cloud.TextRequest(options);

// テキストを抽出する
let result = await parseApi.text(request);
console.log(result.text);
Node.js の REST API を使用して PDF からテキストを抽出する

Node.js の REST API を使用して PDF からテキストを抽出する

Node.js を使用して PDF ドキュメントからページ番号ごとにテキストを取得する

以下の手順に従って、PDF ファイルの特定のページからプログラムでテキストを抽出できます。

  • ParseApi のインスタンスを作成します。
  • FileInfo のインスタンスを作成します。
  • 次に、PDF ファイルへのパスを設定します。
  • TextOptions のインスタンスを作成します。
  • 次に、FileInfo を TextOptions に割り当てます。
  • 抽出する開始ページ番号と総ページ数を設定します。
  • ここで、TextOptions を使用して TextRequest のインスタンスを作成します。
  • 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。

次のコード サンプルは、REST API を使用して PDF ドキュメントからページ番号でテキストを抽出する方法を示しています。

// APIの初期化
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 入力ファイルパス
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// テキストオプションを定義する
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// テキストリクエストの作成
let request = new groupdocs_parser_cloud.TextRequest(options);

// テキストを抽出する
let result = await parseApi.text(request);

// 結果を示す
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js を使用して PDF ドキュメントからページ番号ごとにテキストを取得する

Node.js を使用して PDF ドキュメントからページ番号ごとにテキストを取得する

Node.jsを使用してPDFに添付されたドキュメントからテキストを抽出する

以下に説明する手順に従って、コンテナ内のドキュメントからテキストを抽出し、PDF ファイルの添付ファイルとしてプログラム的に利用できます。

  • ParseApi のインスタンスを作成します。
  • FileInfo のインスタンスを作成します。
  • 次に、PDF ファイルへのパスを設定します。
  • 必要に応じて、ファイルのパスワードを指定します。
  • 次に、ContainerItemInfo のインスタンスを作成します。
  • 次に、添付ファイルの相対パスを設定します。
  • TextOptions のインスタンスを作成します。
  • 次に、FileInfo と ContainerItemInfo を TextOptions に割り当てます。
  • 次に、TextOptions を使用して TextRequest のインスタンスを作成します。
  • 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。

次のコード サンプルは、REST API を使用して PDF ドキュメント内のドキュメントからテキストを抽出する方法を示しています。

// APIの初期化
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 入力ファイル
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// コンテナアイテムの入力
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// テキストオプションを定義する
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// テキストリクエストの作成
let request = new groupdocs_parser_cloud.TextRequest(options);

// テキストを抽出する
let result = await parseApi.text(request);
console.log(result.text);
Node.jsを使用してPDFに添付されたドキュメントからテキストを抽出する

Node.jsを使用してPDFに添付されたドキュメントからテキストを抽出する

オンラインで試す

上記の API を使用して開発された、次の無料のオンライン PDF 解析ツールをお試しください。 https://products.groupdocs.app/parser/pdf

結論

この記事では、クラウド上で PDF ドキュメントを解析する方法を学習しました。さらに、Node.js の REST API を使用して、ページ番号および PDF ファイルのコンテナー アイテムからテキストを抽出する方法についても説明しました。この記事では、プログラムで PDF ファイルをクラウドにアップロードする方法についても説明しました。さらに、ドキュメント を使用して、GroupDocs.Parser Cloud API について詳しく学ぶことができます。また、ブラウザーを通じて直接 API を視覚化し操作できるようにする API リファレンス セクションも提供しています。不明な点がある場合は、フォーラム でお気軽にお問い合わせください。

関連項目