Анализ документов Word с использованием REST API в Node.js

Вам может понадобиться извлечь текст или изображения из документов Word для различных целей. Вы можете легко анализировать документы Word и программно читать текст в приложениях Node.js. Как разработчик Node.js, вы можете программно извлечь весь текст и изображения из файлов DOCX в облаке. В этой статье основное внимание будет уделено тому, как анализировать документы Word с помощью REST API в Node.js.

В этой статье должны быть раскрыты следующие темы:

Анализатор документов REST API и Node.js SDK

Для анализа документов DOCX я буду использовать API Node.js SDK для GroupDocs.Parser Cloud. Он позволяет анализировать данные из более чем 50 типов документов. Он также поддерживает синтаксический анализ контейнеров, таких как ZIP-архивы, файлы почтовых данных OST/PST, электронные книги, разметки и портфолио PDF в ваших приложениях Node.js. Вы можете извлекать текст, изображения и анализировать данные по шаблону с помощью SDK. Он также предоставляет SDK для .NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для Cloud API.

Вы можете установить GroupDocs.Parser Cloud в свое приложение Node.js с помощью следующей команды в консоли:

npm install groupdocs-parser-cloud 

Прежде чем выполнять указанные шаги, получите свой идентификатор клиента и секрет на панели управления. Получив свой идентификатор и секрет, добавьте код, как показано ниже:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Анализ документов Word и извлечение изображений с помощью REST API в Node.js

Вы можете программно анализировать документы Word и извлекать изображения, выполнив шаги, указанные ниже:

Загрузить документ

Во-первых, загрузите документ Word (DOCX) в облако, используя приведенный ниже пример кода:

// инициализировать API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// прочитать файл
fs.readFile(resourcesFolder, (err, fileStream) => {
  // создать запрос на загрузку файла
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // загрузить файл
  fileApi.uploadFile(request);
});

В результате загруженный файл DOCX будет доступен в разделе файлов вашей панели управления в облаке.

Извлечение изображений из документов Word с помощью Node.js

Вы можете легко извлечь все изображения из документов Word, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi
  • Создайте экземпляр FileInfo
  • Установить путь к файлу DOCX
  • Создайте экземпляр ImageOptions
  • Назначьте FileInfo для ImageOptions
  • Создать запрос изображений
  • Получите результаты, вызвав метод ParseApi.images().

В следующем примере кода показано, как извлечь изображения из файла DOCX с помощью REST API.

// инициализация API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// информация о файле примера
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// определить параметры изображения
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// создать запрос изображения
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// получить изображения
let result = await parseApi.images(request);

// показать путь загрузки изображений
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Извлечение изображений из документов Word с помощью Node.js

Извлечение изображений из документов Word с помощью Node.js

Скачать извлеченные изображения

Приведенный выше пример кода сохранит извлеченные изображения в облаке. Вы можете загрузить эти изображения, используя пример кода, приведенный ниже:

// инициализировать API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// создать запрос на скачивание файла
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// Загрузка файла
let response = await fileApi.downloadFile(request);

// сохранить файл изображения в рабочем каталоге
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Извлечение текста из документов Word с помощью Node.js

Вы можете легко извлечь весь текст из документов Word, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi
  • Создайте экземпляр FileInfo
  • Установить путь к файлу DOCX
  • Создайте экземпляр TextOptions
  • Назначьте FileInfo для TextOptions
  • Установить номер начальной страницы
  • Определить FormattedTextOptions
  • Создать текстовый запрос
  • Получите результаты, вызвав метод ParseApi.text().

В следующем примере кода показано, как извлечь текст из файла DOCX с помощью REST API.

// инициализация API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// информация о файле примера
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// определить параметры текста
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// создать текстовый запрос
let request = new groupdocs_parser_cloud.TextRequest(options);

// получить текст
let result = await parseApi.text(request);

// показать извлеченный текст
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Извлечение текста из документов Word с помощью Node.js

Извлечение текста из документов Word с помощью Node.js

Попробуйте онлайн

Пожалуйста, попробуйте следующий бесплатный онлайн-инструмент для синтаксического анализа DOCX, разработанный с использованием вышеуказанного API. https://products.groupdocs.app/parser/docx

Заключение

В этой статье вы узнали, как анализировать документы Word в облаке. Вы также узнали, как извлекать изображения и текст из файлов DOCX с помощью REST API в Node.js. В этой статье также объясняется, как программно загрузить файл DOCX в облако и загрузить файлы изображений из облака. Вы можете узнать больше о GroupDocs.Parser Cloud API, используя документацию. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на форуме.

Смотрите также