PDFからテキストを抽出する方法 | テキスト抽出REST API

PDFからテキストを抽出するにはNode.jsを使用します - テキストエクストラクター

PDF 1 ファイルからテキストをアンロックすることは、コンテンツのインデックス作成、オートメーション、およびデータ分析に不可欠です。Node.js 用の GroupDocs.Parser Cloud SDKを使用すると、重たいツールや手動パースに依存せずに、シンプルな RESTful APIを介して PDF からプレーンまたは構造化されたテキストをプログラム的に抽出できます。

PDFからテキストを抽出する理由は何ですか？

PDFからテキストを抽出することは、以下のために重要です：

ドキュメント管理またはOCRパイプラインの構築。
契約、請求書、および報告書からのデータ収集の自動化。
デジタルアーカイブの全文検索を有効にする。
AI/ML モデルのためのコンテンツのクリーニングと構造化。

以下のトピックについて詳しく説明しましょう:

テキスト抽出REST API
PDFからテキストを抽出する方法 Node.jsを使って
PDFからテキストを抽出するには、cURLを使用します。
オンラインテキストエクストラクター

テキスト抽出 REST API

The GroupDocs.Parser Cloud SDK for Node.js は、GroupDocs.Parser Cloud REST API と対話するための軽量で高性能なラッパーです。これにより、開発者は次のような構造化または非構造化コンテンツを抽出することができます:

テキスト (文書全体、特定のページ、または選択した領域)
Images
メタデータ
ドキュメントフィールド
テーブルやフォームからの構造化データ

さまざまなフォーマットをサポートしています — PDF、Word、Excel、PowerPoint、MSG、ZIP などが含まれます。

前提条件 Node.js 用の GroupDocs.Parser Cloud SDK をインストールします:

npm install groupdocs-parser-cloud

アカウントを GroupDocs.Cloud Dashboard で作成して、認証のためのクライアントIDとクライアントシークレットを取得してください。詳細については、この article をご覧ください。

PDFからテキストを抽出する方法 Node.js

次の手順に従って、Node.js SDKを使用してPDFからテキストを抽出します。

ステップ 1: 設定を行う:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

ステップ 2: PDF ファイルの入力を設定する: TextRequest クラスのオブジェクトを初期化し、TextOptions クラスのインスタンスを渡します。

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

ステップ 3: PDF からテキストを抽出する: text メソッドを呼び出すと、PDFのプレーンテキストコンテンツが返されます。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// より多くの例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node をご覧ください。
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

上記のコードサンプルの出力は、以下の画像に表示されています：

PDFからテキストを抽出するにはcURLを使用します

コマンドライン操作を好む場合やスクリプトに統合したい場合はどうしますか？ GroupDocs.Parser REST APIを使用して、cURLでテキストを抽出できます。

ステップ 1 – アクセストークンを生成する：

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ステップ 2 – REST API を介して画像を抽出する:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

を生成したものに置き換えてください。

cURL と GroupDocs.Parser API を使用する利点

SDK は不要：迅速な統合のために REST を直接使用してください。
プラットフォームに依存しない: どの OS や言語でも動作します。
CI/CDパイプラインに最適：DevOps環境でのテキスト抽出を自動化します。
軽量: cURL以外のインストールは不要です。

オンラインテキスト抽出ツール

ノーコードソリューションをお探しの場合は、GroupDocs.Parser Cloudを活用した無料オンラインPDF Text Extractorをご利用ください。

結論

GroupDocs.Parser Cloud SDK for Node.js は、PDF からテキストを抽出するのを簡単にします。完全なコンテンツ解析、データマイニング、またはドキュメント自動化が必要な場合でも、対応しています。RESTful 呼び出しと cURL 統合をサポートするこの API は、Node.js やその他の環境で最新のスケーラブルなドキュメント処理アプリを構築するために最適です。

📚 追加リソース

GroupDocs.Parser Documentation
API Reference
GitHub SDK リポジトリ
サポートフォーラム
料金とプラン

よくある質問 – FAQs

Wordから画像を抽出するにはどうすればよいですか？

PDFファイルからプログラムでテキストを抽出するには、GroupDocs.Parser Cloud SDKsを使用できます。詳細については、このlinkをご覧ください。

価格モデルは何ですか？

私たちは、従量課金制の単一の支払いモデルを提供しています。詳細については、pricing guideをご覧ください。

PDFからテキストを抽出する Node.js | REST を使用したテキスト抽出 API

PDFからテキストを抽出する理由は何ですか？

テキスト抽出 REST API

PDFからテキストを抽出する方法 Node.js

PDFからテキストを抽出するにはcURLを使用します

cURL と GroupDocs.Parser API を使用する利点

オンラインテキスト抽出ツール

結論

📚 追加リソース

よくある質問 – FAQs

おすすめの記事

PDFからテキストを抽出する理由は何ですか？#

テキスト抽出 REST API#

PDFからテキストを抽出する方法 Node.js#

PDFからテキストを抽出するにはcURLを使用します#

cURL と GroupDocs.Parser API を使用する利点#

オンラインテキスト抽出ツール#

結論#

📚 追加リソース#

よくある質問 – FAQs#

おすすめの記事#

PDFからテキストを抽出する理由は何ですか？

テキスト抽出 REST API

PDFからテキストを抽出する方法 Node.js

PDFからテキストを抽出するにはcURLを使用します

cURL と GroupDocs.Parser API を使用する利点

オンラインテキスト抽出ツール

結論

📚 追加リソース

よくある質問 – FAQs

おすすめの記事