PDFから画像を抽出する Node.js - 画像抽出ツール

この記事では、Node.js と強力な GroupDocs.Parser Cloud REST API を使用して PDF ファイルからプログラムで画像を抽出する方法を学びます。コンテンツパーサー、データ抽出ツール、またはドキュメント自動化システムを構築しているかにかかわらず、PDF から埋め込まれた画像を抽出することは一般的な要件です。このガイドでは、インストール、使用法、および簡単な画像抽出のためのコードスニペットをカバーします。

PDFから画像を抽出する理由は何ですか?

  • PDFからロゴ、インフォグラフィック、および埋め込まれた写真を抽出します。
  • 文書のデジタル化を自動化して、アーカイブとデータ処理を行います。
  • カスタムPDF分析ツールや画像認識パイプラインを構築します。
  • REST APIベースのワークフロー — デスクトップソフトウェアは不要です。

この記事では、以下のトピックを扱います:

PDF 処理 API

GroupDocs.Parser Cloud SDK for Node.js は、開発者がPDF、Word、Excelなどの多様なファイル形式からテキスト、画像、メタデータ、ドキュメントフィールドなどの構造化されたコンテンツを抽出できる軽量で統合が容易なAPIラッパーです。

前提条件 Node.js 用の GroupDocs.Parser Cloud SDK をインストールします:

npm install groupdocs-parser-cloud

アカウントを作成するには、GroupDocs.Cloud Dashboardにアクセスして、認証のためのクライアントIDとクライアントシークレットを取得してください。詳細については、こちらの記事を訪れてください article

PDFから画像をNode.jsを使用して抽出する

これらのステップに従って、Node.js APIを使用してPDFから独自の画像抽出ツールを開発してください:

ステップ 1: 設定を行います。

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

ステップ 2: PDF ファイル情報と画像抽出オプションを定義します。 ImagesRequest クラスのオブジェクトを初期化し、ImagesOptions クラスのインスタンスを渡します。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

ステップ 3: 画像を抽出する。 PDFファイルから画像を抽出するには、images メソッドを呼び出します。

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});
// より多くの例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node をご覧ください。
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new ImagesOptions();
options.fileInfo = fileInfo;

const request = new ImagesRequest(options);

parserApi.images(request).then((response) => {
    console.log("Images extracted successfully.");
    console.log(response.images);
}).catch((err) => {
    console.error("Failed to extract images:", err);
});

上記のコードサンプルの出力は、以下の画像に表示されています:

画像ファイル抽出器

PDFから画像をcURLで抽出する

GroupDocs.Parser REST API と cURL を使用して画像を抽出することもできます。

ステップ 1 – アクセストークンを生成します:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ステップ 2 – REST API を介して画像を抽出する:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/images" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"Binder1.pdf\",    \"StorageName\": \"internal\"  },  \"OutputPath\": \"internal\",  \"StartPageNumber\": 1,  \"CountPagesToExtract\": 2}"
  • を生成したものに置き換えてください。

オンライン画像抽出ツール

コードなしのソリューションを探している場合は、PDF Image Extractor を使用できます。これは GroupDocs.Parser Cloud によって提供されています。

オンライン画像抽出ツール

結論

The GroupDocs.Parser Cloud SDK for Node.js は、PDF ドキュメントから画像を迅速に、スケーラブルに、コードフレンドリーに抽出することができます。自動化スクリプト、コンテンツクロールツール、または画像ベースの分析ツールを構築している場合、この REST API はプログラムで画像を分離し、エクスポートするために必要なすべてを提供します。

あなたのワークフローに統合する準備はできましたか?今日は最初のAPIコールを始めましょう!

📚 追加リソース

よくある質問 – FAQs

Wordから画像を抽出するにはどうすればよいですか?

PDFファイルからプログラム的に画像を抽出するには、GroupDocs.Parser Cloud SDKsを使用できます。詳細についてはこのlinkをご覧ください。

料金モデルは何ですか?

私たちは、従量課金制の単一料金モデルを提供しています。詳細については、pricing guideをご覧ください。

関連記事