PPTX в Node.js

Извлечение текста из PowerPoint PPT/PPTX в Node.js

В некоторых сценариях форматированный текст извлекается из документов для дальнейшей обработки, такой как анализ текста, классификация и т. д. Среди других форматов файлов, таких как PDF и Word, PowerPoint Presentation также используется для извлечения текста. Поэтому в этой статье показано, как извлечь текст из PowerPoint PPT/PPTX в Node.js. Вы можете легко анализировать презентации PowerPoint PPT/PPTX и текст из определенного слайда или программно извлекать весь текст в облаке.

В этой статье будут рассмотрены следующие темы:

Библиотека Node.js для извлечения текста из PowerPoint PPT

Для анализа документов PowerPoint я буду использовать Node.js SDK облачного API GroupDocs.Parser. Он позволяет анализировать данные из более чем 50 типов поддерживаемых форматов документов. Он также поддерживает синтаксический анализ контейнеров, таких как архивы ZIP, файлы почтовых данных OST, электронные книги, разметки, портфолио PowerPoint и PDF в приложениях Node.js. Вы можете извлекать текст, изображения и анализировать данные по шаблону с помощью SDK. Он также предоставляет SDK для .NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для Cloud API.

Вы можете установить GroupDocs.Parser Cloud в свое приложение Node.js с помощью следующей команды в консоли:

npm install groupdocs-parser-cloud

Пожалуйста, получите свой идентификатор клиента и секрет из панели управления, прежде чем выполнять указанные шаги. Получив свой идентификатор и секрет, добавьте код, как показано ниже:

# Импортируйте Node.js SDK в приложение узла с http://api.groupdocs.cloud.
global.groupdocs_parser_cloud = require("groupdocs-parser-cloud");
global.fs = require("fs");

// получить clientId и clientSecret с https://dashboard.groupdocs.cloud (требуется бесплатная регистрация).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

Извлечение всего текста из PowerPoint PPT/PPTX в Node.js с использованием REST API

Вы можете извлечь текст из презентаций PowerPoint, выполнив простые шаги, указанные ниже:

Загрузить файл

Во-первых, загрузите документ PowerPoint в облако, используя приведенный ниже пример кода:

// откройте файл в IOStream с вашего системного диска.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\sample-file.pptx';
// прочитать файл
fs.readFile(resourcesFolder, (err, fileStream) => {
  // построить FileApi
  var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(config);
  // создать запрос на загрузку файла
  var request = new groupdocs_parser_cloud.UploadFileRequest("sample-file.pptx", fileStream, myStorage);
  // загрузить файл
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

В результате загруженный файл PowerPoint будет доступен в разделе файлов вашей панели инструментов в облаке.

Извлечение текста из презентации PowerPoint с помощью Node.js

Вы можете легко извлечь весь текст из файлов PowerPoint программно, выполнив следующие действия:

  • Во-первых, создайте экземпляр ParseApi.
  • Во-вторых, создайте экземпляр FileInfo.
  • Затем укажите путь к файлу PowerPoint.
  • Создайте экземпляр TextOptions.
  • Затем назначьте FileInfo свойству TextOptions.
  • Создайте экземпляр FormattedTextOptions.
  • Установите режим formattedTextOptions как обычный текст
  • Затем присвойте значение formattedTextOptions
  • Теперь создайте экземпляр TextRequest с TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь весь текст из файла PowerPoint с помощью REST API в Node.js:

// Как извлечь весь текст из PowerPoint PPT/PPTX в Node.js с помощью REST API
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Создать запрос на разбор документа
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Показать результаты
    console.log(response.text);
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint PPTX document.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint PPTX file:", err);
})
Как извлечь текст из презентации PowerPoint с помощью Node.js

Извлечение текста из презентации PowerPoint с помощью Node.js

Извлечение текста из PowerPoint PPT по диапазону номеров страниц в Node.js

Вы можете программно извлечь текст из определенных страниц PDF-файла, выполнив следующие действия:

  • Во-первых, создайте экземпляр ParseApi.
  • Затем создайте экземпляр FileInfo.
  • Затем укажите путь к файлу PowerPoint PPTX.
  • Создайте экземпляр TextOptions.
  • Затем назначьте FileInfo свойству TextOptions.
  • Установите значения startPageNumber и countPagesToExtract.
  • Создайте экземпляр FormattedTextOptions.
  • Установите режим formattedTextOptions как обычный текст
  • Затем присвойте значение formattedTextOptions.
  • Установите номер начальной страницы и общее количество страниц для извлечения.
  • Теперь создайте экземпляр TextRequest с TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь конкретный текст из файла PowerPoint PPTX по номерам страниц в Node.js с помощью REST API:

// Как извлечь текст из PowerPoint PPT по диапазону номеров страниц в Node.js
const parse = async () => {
  global.parseApi = groupdocs_parser_cloud.ParseApi.fromKeys(clientId, clientSecret);

  let fileInfo = new groupdocs_parser_cloud.FileInfo();
  fileInfo.filePath = "nodejs-testing/sample-file.pptx";

  let options = new groupdocs_parser_cloud.TextOptions();
  options.fileInfo = fileInfo;
  options.startPageNumber = 0;
  options.countPagesToExtract = 2;

  let formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions();
  formattedTextOptions.mode = "PlainText";
  options.formattedTextOptions = formattedTextOptions;

  try {
    // Создать запрос на разбор документа
    let request = new groupdocs_parser_cloud.TextRequest(options);
    let response = await parseApi.text(request);
    // Показать результаты
    let pages = response.pages;
    pages.forEach(page => console.log("Page No: " + page.pageIndex + " - " + page.text));
  }
  catch (err) {
    throw err;
  }
}

parse()
.then(() => {
  console.log("Successfully extracted text from PowerPoint Presentation.");
})
.catch((err) => {
  console.log("Error occurred while extracting text from PowerPoint file:", err);
})
Как извлечь текст из PowerPoint PPT по диапазону номеров страниц в Node.js

Извлечение текста из PowerPoint PPT по диапазону номеров страниц в Node.js

Попробуйте онлайн

Попробуйте следующий бесплатный онлайн-инструмент для синтаксического анализа PowerPoint, разработанный с использованием вышеуказанного API.

Заключение

В этой статье вы узнали, как анализировать и извлекать текст из PowerPoint PPT в Nodejs. Вы видели:

  • как извлечь текст из определенных слайдов в Node.js с помощью REST API;
  • как извлечь текст из всех слайдов презентации PowerPoint в Node.js;
  • программно загрузить файл PowerPoint в облако;

Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на форуме.

Задайте вопрос

Если у вас возникнут какие-либо вопросы или сомнения по поводу Online Text Extractor, сообщите нам об этом через наш форум.

Часто задаваемые вопросы

Как извлечь текст из PowerPoint в Node.js?

Перейдите по [этой ссылке](https://blog.groupdocs.cloud/ru/parser/extract-text-from-powerpoint-pptpptx-in-node.js/#Extract-All-Text-from-PowerPoint-PPT-PPTX- in-Node.js-using-REST-API), чтобы узнать фрагмент кода Node.js о том, как извлекать текст из файлов PPT в Node.js.

Как извлечь текст из документов PPT онлайн с помощью REST API?

Во-первых, создайте экземпляр ParseApi, установите значения TextOptions, а затем вызовите [ParseApi.text()](https:// apireference.groupdocs.cloud/parser/#/Parse/Text) с TextRequest для извлечения выделенного текста из файлов PPT в режиме онлайн.

Как установить бесплатную библиотеку для извлечения текста PPT?

Вы можете установить экстрактор текста PPT библиотека Node.js, чтобы программно извлекать текст из файлов PPT.

Как извлечь текст из PPT в автономном режиме в Windows?

Посетите эту ссылку, чтобы загрузить программное обеспечение для извлечения текста для Windows. Этот инструмент для извлечения текста мгновенно извлекает текст в окнах одним щелчком мыши.

Смотрите также