Извлечение текста из PDF с помощью REST API в Node.js

Вы можете легко анализировать свои PDF-документы и программно извлекать весь текст в облаке. В этой статье вы узнаете, как извлекать текст из PDF-документов с помощью REST API в Node.js.

В этой статье должны быть раскрыты следующие темы:

PDF Parser REST API и Node.js SDK для извлечения текста

Для анализа документов PDF я буду использовать API Node.js SDK для GroupDocs.Parser Cloud. Он позволяет анализировать данные из более чем 50 типов поддерживаемых форматов документов. Он также поддерживает синтаксический анализ контейнеров, таких как архивы ZIP, файлы почтовых данных OST, электронные книги, разметки и портфолио PDF в ваших приложениях Node.js. Вы можете извлекать текст, изображения и анализировать данные по шаблону с помощью SDK. Он также предоставляет SDK для .NET, Java, PHP, Ruby и Python в качестве членов семейства парсеров документов для Cloud API.

Вы можете установить GroupDocs.Parser Cloud в свое приложение Node.js с помощью следующей команды в консоли:

npm install groupdocs-parser-cloud

Пожалуйста, получите свой идентификатор клиента и секрет из панели управления, прежде чем выполнять указанные шаги. Получив свой идентификатор и секрет, добавьте код, как показано ниже:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Извлечение текста из PDF с помощью REST API в Node.js

Вы можете извлечь текст из документов PDF, выполнив простые шаги, указанные ниже:

Загрузить документ

Во-первых, загрузите документ PDF в облако, используя приведенный ниже пример кода:

// Создать FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Создать запрос на загрузку файла
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Загрузить файл
  fileApi.uploadFile(request);
});

В результате загруженный PDF-файл будет доступен в разделе файлов вашей панели управления в облаке.

Извлечение текста из PDF-документов с помощью Node.js

Вы можете легко извлечь весь текст из документов PDF программно, выполнив следующие шаги:

  • Создайте экземпляр ParseApi.
  • Создайте экземпляр FileInfo.
  • Затем укажите путь к файлу PDF.
  • Создайте экземпляр TextOptions.
  • Затем назначьте FileInfo свойству TextOptions.
  • Теперь создайте экземпляр TextRequest с TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь весь текст из документа PDF с помощью REST API в Node.js.

// Инициализация API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Входной файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Определить параметры текста
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Создать текстовый запрос
let request = new groupdocs_parser_cloud.TextRequest(options);

// Извлечь текст
let result = await parseApi.text(request);
console.log(result.text);
Извлечение текста из PDF с помощью REST API в Node.js

Извлечение текста из PDF с помощью REST API в Node.js

Получить текст по номерам страниц из PDF-документов с помощью Node.js

Вы можете программно извлечь текст из определенных страниц PDF-файла, выполнив следующие действия:

  • Создайте экземпляр ParseApi.
  • Создайте экземпляр FileInfo.
  • Затем укажите путь к файлу PDF.
  • Создайте экземпляр TextOptions.
  • Затем назначьте FileInfo свойству TextOptions.
  • Установите номер начальной страницы и общее количество страниц для извлечения.
  • Теперь создайте экземпляр TextRequest с TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь текст по номерам страниц из документа PDF с помощью REST API.

// Инициализация API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Путь к входному файлу
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Определить параметры текста
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Создать текстовый запрос
let request = new groupdocs_parser_cloud.TextRequest(options);

// Извлечь текст
let result = await parseApi.text(request);

// Показать результаты
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Получить текст по номерам страниц из PDF-документов с помощью Node.js

Получить текст по номерам страниц из PDF-документов с помощью Node.js

Извлечение текста из документов, прикрепленных к PDF, с помощью Node.js

Вы можете программно извлечь текст из документа внутри контейнера, доступного в виде вложения в файле PDF, выполнив шаги, указанные ниже.

  • Создайте экземпляр ParseApi.
  • Создайте экземпляр FileInfo.
  • Затем укажите путь к файлу PDF.
  • При желании укажите пароль к файлу.
  • Теперь создайте экземпляр ContainerItemInfo.
  • Затем укажите относительный путь для прикрепленного файла.
  • Создайте экземпляр TextOptions.
  • Затем назначьте FileInfo и ContainerItemInfo для TextOptions.
  • Теперь создайте экземпляр TextRequest с TextOptions.
  • Наконец, получите результаты, вызвав метод ParseApi.text() с TextRequest.

В следующем примере кода показано, как извлечь текст из документа внутри документа PDF с помощью REST API.

// Инициализация API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Входной файл
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Элемент входного контейнера
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Определить параметры текста
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Создать текстовый запрос
let request = new groupdocs_parser_cloud.TextRequest(options);

// Извлечь текст
let result = await parseApi.text(request);
console.log(result.text);
Извлечение текста из документов, прикрепленных к PDF, с помощью Node.js

Извлечение текста из документов, прикрепленных к PDF, с помощью Node.js

Попробуйте онлайн

Попробуйте следующий бесплатный онлайн-инструмент для анализа PDF-файлов, разработанный с использованием вышеуказанного API. https://products.groupdocs.app/parser/pdf

Заключение

В этой статье вы узнали, как анализировать PDF-документы в облаке. Кроме того, вы увидели, как извлекать текст по номерам страниц и из контейнеров PDF-файлов с помощью REST API в Node.js. В этой статье также объясняется, как программно загрузить файл PDF в облако. Кроме того, вы можете узнать больше о GroupDocs.Parser Cloud API, воспользовавшись документацией. Мы также предоставляем раздел Справочник по API, который позволяет визуализировать наши API и взаимодействовать с ними непосредственно через браузер. В случае возникновения каких-либо неясностей, пожалуйста, свяжитесь с нами на форуме.

Смотрите также