特定のシナリオでは、テキスト分析や分類などのさらなる処理のために、書式設定されたテキストが文書から抽出されます。PDF や Word などの他のファイル形式の中でも、PowerPoint プレゼンテーションもテキスト抽出に使用されます。したがって、この記事では、Node.js で PowerPoint PPT/PPTX からテキストを抽出する方法を説明します。 PowerPoint PPT/PPTX プレゼンテーションと特定のスライドのテキストを簡単に解析したり、クラウド上でプログラムによってすべてのテキストを抽出したりできます。
この記事では次のトピックについて説明します。
- PowerPoint PPT からテキストを抽出する Node.js ライブラリ
- REST API を使用して Node.js で PowerPoint PPT/PPTX からすべてのテキストを抽出する
- Node.js のページ番号範囲に基づいて PowerPoint PPT からテキストを抽出
PowerPoint PPT からテキストを抽出する Node.js ライブラリ
PowerPoint ドキュメントの解析には、GroupDocs.Parser Cloud API の Node.js SDK を使用します。これにより、サポートされている 50 種類を超える ドキュメント形式 のデータを解析できます。また、Node.js アプリケーション内の ZIP アーカイブ、OST メール データ ファイル、電子書籍、マークアップ、PowerPoint, PDF ポートフォリオなどのコンテナーの解析もサポートします。 SDK を使用すると、テンプレートによってテキスト、画像を抽出し、データを解析できます。また、クラウド API の ドキュメント パーサー ファミリ メンバー として、.NET、Java、PHP、Ruby、Python SDK も提供します。
コンソールで次のコマンドを使用して、GroupDocs.Parser Cloud を Node.js アプリケーションにインストールできます。
npm install groupdocs-parser-cloud
上記の手順に従う前に、ダッシュボードからクライアント ID とシークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。
# http://api.groupdocs.cloud から Node.js SDK をノード アプリケーションにインポートします
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");
// https://dashboard.groupdocs.cloud から clientId と clientSecret を取得します (無料の登録が必要です)。
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
REST API を使用して Node.js で PowerPoint PPT/PPTX からすべてのテキストを抽出する
以下の簡単な手順に従って、PowerPoint プレゼンテーションからテキストを抽出できます。
ファイルをアップロードする
まず、以下のコード例を使用して、PowerPoint ドキュメントをクラウドにアップロードします。
// システム ドライブから IOStream 内のファイルを開きます。
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// ファイルを読み取る
fs.readFile(resourcesFolder, (err, fileStream) => {
// FileApi を構築する
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
// アップロードファイルリクエストの作成
var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
// ファイルをアップロードする
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
その結果、アップロードされた PowerPoint ファイルは、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。
Node.js を使用して PowerPoint プレゼンテーションからテキストを抽出する
以下の手順に従って、PowerPoint ファイルからすべてのテキストをプログラムで簡単に抽出できます。
- まず、ParseApiのインスタンスを作成します。
- 次に、FileInfo のインスタンスを作成します。
- 次に、PowerPoint ファイルへのパスを設定します。
- TextOptions のインスタンスを作成します。
- 次に、FileInfo を TextOptions に割り当てます。
- FormattedTextOptions のインスタンスを作成します。
- formattedTextOptions モードを PlainText として設定します
- 次に、formattedTextOptions 値を割り当てます
- ここで、TextOptions を使用して TextRequest のインスタンスを作成します。
- 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。
次のコード サンプルは、Node.js の REST API を使用して PowerPoint ファイルからすべてのテキストを抽出する方法を示しています。
// REST APIを使用してNode.jsでPowerPoint PPT/PPTXからすべてのテキストを抽出する方法
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 解析ドキュメントリクエストの作成
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 表示結果
console.log(response.text);
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Node.js のページ番号範囲で PowerPoint PPT からテキストを抽出する
以下の手順に従って、PDF ファイルの特定のページからプログラムでテキストを抽出できます。
- まず、ParseApiのインスタンスを作成します。
- 次に、FileInfo のインスタンスを作成します。
- 次に、PowerPoint PPTX ファイルへのパスを設定します。
- TextOptions のインスタンスを作成します。
- 次に、FileInfo を TextOptions に割り当てます。
- startPageNumber と countPagesToExtract の値を設定する
- FormattedTextOptions のインスタンスを作成します。
- formattedTextOptions モードを PlainText として設定します
- 次に、formattedTextOptions 値を割り当てます.
- 抽出する開始ページ番号と総ページ数を設定します。
- ここで、TextOptions を使用して TextRequest のインスタンスを作成します。
- 最後に、TextRequest で ParseApi.text() メソッドを呼び出して結果を取得します。
次のコード サンプルは、REST API を使用して Node.js のページ番号によって PowerPoint PPTX ファイルから特定のテキストを抽出する方法を示しています。
// Node.js でページ番号範囲に基づいて PowerPoint PPT からテキストを抽出する方法
const parse = async () => {
global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "nodejs-testing/sample-file.pptx";
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 2;
let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
formattedTextOptions.mode = "PlainText";
options.formattedTextOptions = formattedTextOptions;
try {
// 解析ドキュメントリクエストの作成
let request = new groupdocs_parser_cloud.TextRequest(options);
let response = await parseApi.text(request);
// 表示結果
let pages = response.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
}
catch (err) {
throw err;
}
}
parse()
.then(() => {
console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
console.log("Error occurred while extracting text from PowerPoint file:", err);
})
オンラインで試す
上記の API を使用して開発された次の 無料のオンライン PowerPoint 解析ツール を試してください。
結論
この記事では、Nodejs で PowerPoint PPT からテキストを解析して抽出する方法を学習しました。あなたは見たことがあります:
- REST API を使用して Node.js の特定のスライドからテキストを抽出する方法。
- Node.js で PowerPoint プレゼンテーションのすべてのスライドからテキストを抽出する方法。
- PowerPoint ファイルをプログラムでクラウドにアップロードします。
さらに、GroupDocs.Parser Cloud API の詳細については、ドキュメント を使用して学習できます。また、ブラウザーを通じて API を直接視覚化し操作できるようにする API リファレンス セクションも提供しています。不明な点がある場合は、フォーラムでお気軽にお問い合わせください。
質問する
Online Text Extractor について質問や混乱がある場合は、フォーラム 経由でお知らせください。
よくある質問
Node.js で PowerPoint からテキストを抽出するにはどうすればよいですか?
このリンク に従ってください。 in-Node.js-using-REST-API) を使用して、Node.js で PPT ファイルからテキストを抽出する方法の Node.js コード スニペットを学習します。
REST APIを使用してオンラインでPPTドキュメントからテキストを抽出するにはどうすればよいですか?
まず、ParseApi のインスタンスを作成し、TextOptions の値を設定して、[ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) メソッドと TextRequest を組み合わせて、PPT ファイルから選択したテキストをオンラインで抽出します。
PPT テキスト抽出ツールの無料ダウンロード ライブラリをインストールするにはどうすればよいですか?
PPT テキスト抽出ツール Node.js ライブラリ をインストールして、PPT ファイルからプログラム的にテキストを抽出できます。
Windows でオフラインで PPT からテキストを抽出するにはどうすればよいですか?
Windows 用のテキスト抽出ソフトウェアをダウンロードするには、このリンク にアクセスしてください。このテキスト抽出ツールは、ワンクリックでウィンドウ内のテキストを瞬時に抽出します。
関連項目
- Node.js を使用して PDF ファイルから画像を抽出する
- Node.js の REST API を使用して PDF からデータを抽出する
- Python で REST API を使用して Word ドキュメントを解析する
- Node.js の REST API を使用して PDF からテキストを抽出する
- Node.js の REST API を使用して Word ドキュメントを解析する
- Python を使用して PDF から特定のデータを抽出する
- Python を使用して PDF ドキュメントから画像を抽出する
- Python を使用して PDF からテキストを抽出する方法
- Python を使用して PDF、スプレッドシート、プレゼンテーション、Word ドキュメントから画像を抽出する