Аналізуйте документи Word за допомогою REST API у Node.js

Вам може знадобитися витягти текст або зображення з документів Word для різних цілей. Ви можете легко аналізувати документи Word і читати текст програмним шляхом у своїх програмах Node.js. Як розробник Node.js ви можете програмно видобувати весь текст і зображення з файлів DOCX у хмарі. У цій статті мова піде про те, як аналізувати документи Word за допомогою REST API у Node.js.

У цій статті будуть розглянуті такі теми:

REST API аналізатора документів і SDK Node.js

Для аналізу документів DOCX я буду використовувати API Node.js SDK GroupDocs.Parser Cloud. Він дозволяє аналізувати дані з понад 50 типів документів. Він також підтримує розбір таких контейнерів, як ZIP-архіви, файли поштових даних OST/PST, електронні книги, розмітки та PDF-портфоліо у ваших програмах Node.js. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає пакети SDK .NET, Java, PHP, Ruby та Python як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свою програму Node.js за допомогою такої команди в консолі:

npm install groupdocs-parser-cloud 

Будь ласка, отримайте свій ідентифікатор клієнта та секрет із інформаційної панелі, перш ніж виконувати вказані дії. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Розбирайте документи Word і витягуйте зображення за допомогою REST API у Node.js

Ви можете проаналізувати свої документи Word і отримати зображення програмним шляхом, виконавши наведені нижче дії.

Завантажте документ

По-перше, завантажте документ Word (DOCX) у хмару, використовуючи наведений нижче приклад коду:

// ініціалізувати API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// читати файл
fs.readFile(resourcesFolder, (err, fileStream) => {
  // створити запит на завантаження файлу
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // завантажити файл
  fileApi.uploadFile(request);
});

У результаті завантажений файл DOCX буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Видобувайте зображення з документів Word за допомогою Node.js

Ви можете легко витягнути всі зображення з документів Word, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Створіть екземпляр FileInfo
  • Встановіть шлях до файлу DOCX
  • Створіть екземпляр ImageOptions
  • Призначте FileInfo параметрам ImageOptions
  • Створити ImagesRequest
  • Отримайте результати, викликавши метод ParseApi.images().

У наведеному нижче прикладі коду показано, як видобувати зображення з файлу DOCX за допомогою REST API.

// ініціалізація API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// зразок інформації про файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// визначити параметри зображення
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// створити запит на зображення
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// отримати зображення
let result = await parseApi.images(request);

// показати шлях завантаження зображень
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Видобувайте зображення з документів Word за допомогою Node.js

Видобувайте зображення з документів Word за допомогою Node.js

Завантажте витягнуті зображення

Наведений вище приклад коду збереже витягнуті зображення в хмарі. Ви можете завантажити ці зображення за допомогою зразка коду, наведеного нижче:

// ініціалізувати api
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// створити запит на завантаження файлу
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// завантажити файл
let response = await fileApi.downloadFile(request);

// зберегти файл зображення в робочому каталозі
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Витягніть текст із документів Word за допомогою Node.js

Ви можете легко витягти весь текст із документів Word, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi
  • Створіть екземпляр FileInfo
  • Встановіть шлях до файлу DOCX
  • Створіть екземпляр TextOptions
  • Призначте FileInfo до TextOptions
  • Встановіть номер початкової сторінки
  • Визначте FormattedTextOptions
  • Створити TextRequest
  • Отримайте результати, викликавши метод ParseApi.text().

У наведеному нижче прикладі коду показано, як отримати текст із файлу DOCX за допомогою REST API.

// ініціалізація API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// зразок інформації про файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// визначити параметри тексту
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// створити текстовий запит
let request = new groupdocs_parser_cloud.TextRequest(options);

// отримати текст
let result = await parseApi.text(request);

// показати витягнутий текст
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Витягніть текст із документів Word за допомогою Node.js

Витягніть текст із документів Word за допомогою Node.js

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент синтаксичного аналізу DOCX, розроблений за допомогою вищезазначеного API. https://products.groupdocs.app/parser/docx

Висновок

У цій статті ви дізналися, як аналізувати документи Word у хмарі. Ви також дізналися, як видобувати зображення та текст із файлів DOCX за допомогою REST API у Node.js. У цій статті також пояснюється, як програмно завантажити файл DOCX у хмару та завантажити файли зображень із хмари. Ви можете дізнатися більше про GroupDocs.Parser Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Дивись також