Word ドキュメントからテキストを抽出する Node.js API - テキスト抽出器

Microsoft Word 文書から自動化、インデックス作成、または分析のためにプレーンまたは構造化テキストを抽出する必要がある場合、GroupDocs.Parser Cloud SDK for Node.js は信頼できる RESTful ソリューションを提供します。数行のコードだけで、Microsoft Word をインストールしたり、サーバーサイドツールを使用したりすることなく、 .doc.docx ファイルからコンテンツを抽出できます。

Word Document Text Extraction API

The GroupDocs.Parser Cloud SDK for Node.js は、抽出を簡素化するREST APIのラッパーです:

  • テキスト(全文書または特定のページ)。
  • テーブルと構造化データ。
  • メタデータと埋め込みフィールド。
  • 添付ファイルと画像。

さまざまなフォーマットをサポートしています。これには、 PDFWordExcelPowerPointMSGZIP などが含まれます。

前提条件

  1. GroupDocs.Cloud Dashboard でアカウントを作成します。
  2. クライアントIDとクライアントシークレットを取得してください。
  3. SDKをインストールします:
npm install groupdocs-parser-cloud

あなたは、認証のためにクライアント ID とクライアント シークレットを取得する方法についてもっと学ぶために、次の記事を訪れることを検討してもよいでしょう。

Word Document Text Extraction API

以下の手順に従って、Node.js SDKを使用してWord文書からテキストを抽出する方法に関する情報を確認してください。

ステップ 1: 構成の初期化:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

ステップ 2: ファイル情報とテキストオプションの設定: TextRequest クラスのオブジェクトを初期化し、TextOptions クラスのインスタンスを渡します。

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

ステップ 3: Word ファイルからテキストを抽出する: text メソッドを呼び出すと、Word 文書からプレーン テキスト コンテンツが返されます。

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// より多くの例については、 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node をご覧ください。
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

上記のコードサンプルの出力を以下の画像で見ることができます:

extract word document text

WordからテキストをcURLで抽出する

コマンドライン操作を好む場合やスクリプトに統合したい場合はどうしますか? cURL と GroupDocs.Parser REST API を使用して Word 文書からテキストを抽出できます。

ステップ 1 – アクセストークンの生成:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

ステップ 2 – API コールを介してテキストを抽出する:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • をあなたが生成したものに置き換えてください。

GroupDocs.Parser APIを使用する際のcURLの利点

  • ✅ SDKのインストールは不要です。
  • ✅ クロスプラットフォーム自動化。
  • ✅ シェルスクリプトとCIパイプラインに最適です。
  • ✅ 効率的で軽量です。

オンラインテキスト抽出ツール

私たちの Free Online Word Text Extractor を使用してください。これは GroupDocs.Parser Cloud によって運営されており、コードなしのオプションを好む場合に便利です。

オンラインワードテキスト抽出器

結論

GroupDocs.Parser Cloud SDK for Node.js を使用すると、Word 文書(.docx または .doc)からテキストを簡単に抽出でき、自動化、インデックス作成、またはデータマイニングに利用できます。SDK と REST API は、Node.js を使用するか、直接 cURL コマンドを使用するかに関係なく、柔軟でスケーラブルなオプションを提供します。

📚 追加リソース

よくある質問 – FAQs

  1. DOCXのテーブルからもテキストを抽出できますか?
  • はい。GroupDocs.Parserは、テーブルセルやレイアウトデータを含む構造化されたコンテンツを抽出できます。
  1. Microsoft Word は必要ですか?
  • いいえ。APIはクラウド上で実行され、Microsoft Officeに依存しません。
  1. 価格モデルは何ですか?
  • 我们提供单一的按需付费定价模型。欲了解更多信息,请访问 pricing guide.
  1. 無料トライアルを受けることはできますか?
  • はい。無料トライアルアカウントに登録されると、月に150回のAPIコールを無料で行うことができます。詳細については、pricing guideをご覧ください。

おすすめの記事