PDFからテキストを抽出するにはNode.jsを使用します - テキストエクストラクター

PDF 1 ファイルからテキストをアンロックすることは、コンテンツのインデックス作成、オートメーション、およびデータ分析に不可欠です。Node.js 用の GroupDocs.Parser Cloud SDKを使用すると、重たいツールや手動パースに依存せずに、シンプルな RESTful APIを介して PDF からプレーンまたは構造化されたテキストをプログラム的に抽出できます。

PDFからテキストを抽出する理由は何ですか?

PDFからテキストを抽出することは、以下のために重要です:

  • ドキュメント管理またはOCRパイプラインの構築。
  • 契約、請求書、および報告書からのデータ収集の自動化。
  • デジタルアーカイブの全文検索を有効にする。
  • AI/ML モデルのためのコンテンツのクリーニングと構造化。

以下のトピックについて詳しく説明しましょう:

テキスト抽出 REST API

The GroupDocs.Parser Cloud SDK for Node.js は、GroupDocs.Parser Cloud REST API と対話するための軽量で高性能なラッパーです。これにより、開発者は次のような構造化または非構造化コンテンツを抽出することができます:

  • テキスト (文書全体、特定のページ、または選択した領域)
  • Images
  • メタデータ
  • ドキュメントフィールド
  • テーブルやフォームからの構造化データ

さまざまなフォーマットをサポートしています — PDF、WordExcelPowerPointMSGZIP などが含まれます。

前提条件 Node.js 用の GroupDocs.Parser Cloud SDK をインストールします:

npm install groupdocs-parser-cloud

アカウントを GroupDocs.Cloud Dashboard で作成して、認証のためのクライアントIDとクライアントシークレットを取得してください。詳細については、この article をご覧ください。

PDFからテキストを抽出する方法 Node.js

次の手順に従って、Node.js SDKを使用してPDFからテキストを抽出します。

ステップ 1: 設定を行う:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

ステップ 2: PDF ファイルの入力を設定する: TextRequest クラスのオブジェクトを初期化し、TextOptions クラスのインスタンスを渡します。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

ステップ 3: PDF からテキストを抽出する: text メソッドを呼び出すと、PDFのプレーンテキストコンテンツが返されます。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// より多くの例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node をご覧ください。
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

上記のコードサンプルの出力は、以下の画像に表示されています:

pdf テキスト抽出ツール

PDFからテキストを抽出するにはcURLを使用します

コマンドライン操作を好む場合やスクリプトに統合したい場合はどうしますか? GroupDocs.Parser REST APIを使用して、cURLでテキストを抽出できます。

ステップ 1 – アクセストークンを生成する:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ステップ 2 – REST API を介して画像を抽出する:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • を生成したものに置き換えてください。

cURL と GroupDocs.Parser API を使用する利点

  • SDK は不要:迅速な統合のために REST を直接使用してください。
  • プラットフォームに依存しない: どの OS や言語でも動作します。
  • CI/CDパイプラインに最適:DevOps環境でのテキスト抽出を自動化します。
  • 軽量: cURL以外のインストールは不要です。

オンラインテキスト抽出ツール

ノーコードソリューションをお探しの場合は、GroupDocs.Parser Cloudを活用した無料オンラインPDF Text Extractorをご利用ください。

オンライン画像抽出器

結論

GroupDocs.Parser Cloud SDK for Node.js は、PDF からテキストを抽出するのを簡単にします。完全なコンテンツ解析、データマイニング、またはドキュメント自動化が必要な場合でも、対応しています。RESTful 呼び出しと cURL 統合をサポートするこの API は、Node.js やその他の環境で最新のスケーラブルなドキュメント処理アプリを構築するために最適です。

📚 追加リソース

よくある質問 – FAQs

Wordから画像を抽出するにはどうすればよいですか?

PDFファイルからプログラムでテキストを抽出するには、GroupDocs.Parser Cloud SDKsを使用できます。詳細については、このlinkをご覧ください。

価格モデルは何ですか?

私たちは、従量課金制の単一の支払いモデルを提供しています。詳細については、pricing guideをご覧ください。

おすすめの記事