Витягніть текст із PDF за допомогою REST API у Node.js

Ви можете легко аналізувати свої PDF-документи та видобувати весь текст програмним шляхом у хмарі. У цій статті ви дізнаєтесь, як видобувати текст із PDF-документів за допомогою REST API у Node.js.

У цій статті будуть розглянуті такі теми:

PDF Parser REST API та Node.js SDK для вилучення тексту

Для аналізу документів PDF я використовуватиму API Node.js SDK GroupDocs.Parser Cloud. Він дозволяє аналізувати дані з понад 50 типів підтримуваних форматів документів. Він також підтримує розбір таких контейнерів, як архіви ZIP, OST файли поштових даних, електронні книги, розмітки та PDF-портфоліо у ваших програмах Node.js. Ви можете видобувати текст, зображення та аналізувати дані за шаблоном за допомогою SDK. Він також надає .NET, Java, PHP, Ruby та Python SDK як члени сімейства парсерів документів для Cloud API.

Ви можете встановити GroupDocs.Parser Cloud у свою програму Node.js за допомогою такої команди в консолі:

npm install groupdocs-parser-cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секрет на інформаційній панелі, перш ніж виконувати вказані дії. Отримавши ідентифікатор і секрет, додайте код, як показано нижче:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Витягніть текст із PDF за допомогою REST API у Node.js

Ви можете отримати текст із PDF-документів, виконавши прості кроки, згадані нижче:

Завантажте документ

По-перше, завантажте PDF-документ у хмару за допомогою наведеного нижче прикладу коду:

// Побудуйте FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Створити запит на завантаження файлу
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Завантажити файл
  fileApi.uploadFile(request);
});

У результаті завантажений PDF-файл буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Витягніть текст із PDF-документів за допомогою Node.js

Ви можете легко отримати весь текст із PDF-документів програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi.
  • Створіть екземпляр FileInfo.
  • Потім встановіть шлях до файлу PDF.
  • Створіть екземпляр TextOptions.
  • Потім призначте FileInfo TextOptions.
  • Тепер створіть екземпляр TextRequest за допомогою TextOptions.
  • Нарешті, отримуйте результати, викликаючи метод ParseApi.text() за допомогою TextRequest.

У наведеному нижче прикладі коду показано, як витягнути весь текст із документа PDF за допомогою REST API у Node.js.

// Ініціалізація API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Вхідний файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Визначте варіанти тексту
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Створити текстовий запит
let request = new groupdocs_parser_cloud.TextRequest(options);

// Витягніть текст
let result = await parseApi.text(request);
console.log(result.text);
Витягніть текст із PDF за допомогою REST API у Node.js

Витягніть текст із PDF за допомогою REST API у Node.js

Отримайте текст за номерами сторінок із PDF-документів за допомогою Node.js

Ви можете отримати текст із певних сторінок PDF-файлу програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi.
  • Створіть екземпляр FileInfo.
  • Потім встановіть шлях до файлу PDF.
  • Створіть екземпляр TextOptions.
  • Потім призначте FileInfo TextOptions.
  • Встановіть номер початкової сторінки та загальну кількість сторінок для вилучення.
  • Тепер створіть екземпляр TextRequest за допомогою TextOptions.
  • Нарешті, отримайте результати, викликавши метод ParseApi.text() за допомогою TextRequest.

У наведеному нижче прикладі коду показано, як витягти текст за номерами сторінок із документа PDF за допомогою REST API.

// Ініціалізація API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Вхідний шлях до файлу
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Визначте варіанти тексту
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Створити текстовий запит
let request = new groupdocs_parser_cloud.TextRequest(options);

// Витягніть текст
let result = await parseApi.text(request);

// Показати результати
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Отримайте текст за номерами сторінок із PDF-документів за допомогою Node.js

Отримайте текст за номерами сторінок із PDF-документів за допомогою Node.js

Витягніть текст із документів, вкладених у PDF, за допомогою Node.js

Ви можете витягти текст із документа всередині контейнера, доступного як вкладення у PDF-файл програмним шляхом, виконавши наведені нижче дії.

  • Створіть екземпляр ParseApi.
  • Створіть екземпляр FileInfo.
  • Потім встановіть шлях до файлу PDF.
  • За бажанням введіть пароль файлу.
  • Тепер створіть екземпляр ContainerItemInfo
  • Потім встановіть відносний шлях для вкладеного файлу
  • Створіть екземпляр TextOptions.
  • Потім призначте FileInfo та ContainerItemInfo TextOptions.
  • Тепер створіть екземпляр TextRequest за допомогою TextOptions
  • Нарешті, отримуйте результати, викликаючи метод ParseApi.text() за допомогою TextRequest

У наведеному нижче прикладі коду показано, як витягти текст із документа в PDF-документі за допомогою REST API.

// Ініціалізація API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Вхідний файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Елемент вхідного контейнера
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Визначте варіанти тексту
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Створити текстовий запит
let request = new groupdocs_parser_cloud.TextRequest(options);

// Витягніть текст
let result = await parseApi.text(request);
console.log(result.text);
Витягніть текст із документів, вкладених у PDF, за допомогою Node.js

Витягніть текст із документів, вкладених у PDF, за допомогою Node.js

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент аналізу PDF-файлів, розроблений за допомогою вищезазначеного API. https://products.groupdocs.app/parser/pdf

Висновок

У цій статті ви дізналися, як аналізувати PDF-документи в хмарі. Крім того, ви бачили, як видобувати текст за номерами сторінок і з елементів контейнера PDF-файлів за допомогою REST API у Node.js. У цій статті також пояснюється, як програмно завантажити PDF-файл у хмару. Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Дивись також