Извлечение текста из PDF в Node.js | API для извлечения текста REST

Извлечение текста из PDF с использованием Node.js - Экстрактор текста

Разблокировка текста из PDF файлов имеет важное значение для индексирования контента, автоматизации и анализа данных. С помощью GroupDocs.Parser Cloud SDK для Node.js вы можете программно извлекать простой или структурированный текст из PDF через простой RESTful API — без зависимости от громоздких инструментов или ручного парсинга.

Почему нужно извлекать текст из PDF?

Извлечение текста из PDF-документов имеет важное значение для:

Создание систем управления документами или OCR пайплайнов.
Автоматизация сбора данных из контрактов, счетов и отчетов.
Включение полнотекстового поиска для цифровых архивов.
Очистка и структурирование контента для моделей ИИ/МЛ.

Давайте рассмотрим следующие темы более подробно:

Текстовый извлекающий REST API
Как извлечь текст из PDF с использованием Node.js
Извлечение текста из PDF с помощью cURL
Онлайн извлекатель текста

API для извлечения текста

GroupDocs.Parser Cloud SDK for Node.js является легким, высокопроизводительным оберткой для взаимодействия с API GroupDocs.Parser Cloud REST. Он позволяет разработчикам извлекать структурированный или неструктурированный контент, такой как:

Текст (весь документ, определенные страницы или выбранные области)
Images
Метаданные
Поля документа
Структурированные данные из таблиц или форм

Он поддерживает множество форматов — включая PDF, Word, Excel, PowerPoint, MSG, ZIP и другие.

Предварительные условия Установите облачный SDK GroupDocs.Parser для Node.js:

npm install groupdocs-parser-cloud

Создайте учетную запись на GroupDocs.Cloud Dashboard, чтобы получить свой Client ID и Client Secret для аутентификации. Для получения дополнительной информации, пожалуйста, посетите эту article.

Как извлечь текст из PDF с помощью Node.js

Следуйте этим шагам, чтобы извлечь текст из PDF, используя SDK Node.js.

Шаг 1: Настройка конфигурации:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Шаг 2: Настройка ввода PDF-файла: Инициализируйте объект класса TextRequest и передайте экземпляр класса TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Шаг 3: Извлечение текста из PDF: Вызовите text метод, и он вернет содержание вашего PDF в обычном текстовом формате.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Вы можете увидеть вывод приведенного выше образца кода на изображении ниже:

Извлечение текста из PDF с помощью cURL

Если вы предпочитаете команды командной строки или хотите интегрировать это в скрипт? Вы можете извлечь текст, используя cURL с REST API GroupDocs.Parser.

Шаг 1 – Генерация токена доступа:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Шаг 2 – Извлеките изображения через REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

Замените на тот, который вы создали.

Преимущества использования cURL с API GroupDocs.Parser

Нет необходимости в SDK: используйте REST напрямую для быстрого интегрирования.
Платформонезависимый: Работает с любой ОС или языком.
Идеально подходит для CI/CD пайплайнов: Автоматизируйте извлечение текста в средах DevOps.
Легковесный: Нет установок, кроме cURL.

Онлайн текстовый экстрактор

Если вы ищете безкодовое решение, то используйте наш бесплатный онлайн PDF Text Extractor, работающий на GroupDocs.Parser Cloud.

Заключение

GroupDocs.Parser Cloud SDK для Node.js позволяет легко извлекать текст из PDF, будь то полное извлечение содержания, добыча данных или автоматизация документов. С поддержкой RESTful вызовов и интеграцией cURL этот API идеально подходит для создания современных, масштабируемых приложений для обработки документов в Node.js или других средах.

📚 Дополнительные ресурсы

Документация GroupDocs.Parser
API Reference
GitHub SDK Repository
Форум поддержки
Цены и планы

Часто задаваемые вопросы – FAQs

Как я могу извлечь изображения из Word?

Вы можете использовать GroupDocs.Parser Cloud SDKs, чтобы программно извлекать текст из PDF-файлов. Пожалуйста, посетите эту ссылку для получения дополнительной информации.

Какова модель ценообразования?

Мы предлагаем модель ценообразования “плати по мере использования”. Для получения дополнительной информации, пожалуйста, посетите pricing guide.

Извлечение текста из PDF в Node.js | API для извлечения текста с REST

Почему нужно извлекать текст из PDF?

API для извлечения текста

Как извлечь текст из PDF с помощью Node.js

Извлечение текста из PDF с помощью cURL

Преимущества использования cURL с API GroupDocs.Parser

Онлайн текстовый экстрактор

Заключение

📚 Дополнительные ресурсы

Часто задаваемые вопросы – FAQs

Рекомендуемые статьи

Почему нужно извлекать текст из PDF?#

API для извлечения текста#

Как извлечь текст из PDF с помощью Node.js#

Извлечение текста из PDF с помощью cURL#

Преимущества использования cURL с API GroupDocs.Parser#

Онлайн текстовый экстрактор#

Заключение#

📚 Дополнительные ресурсы#

Часто задаваемые вопросы – FAQs#

Рекомендуемые статьи#

Почему нужно извлекать текст из PDF?

API для извлечения текста

Как извлечь текст из PDF с помощью Node.js

Извлечение текста из PDF с помощью cURL

Преимущества использования cURL с API GroupDocs.Parser

Онлайн текстовый экстрактор

Заключение

📚 Дополнительные ресурсы

Часто задаваемые вопросы – FAQs

Рекомендуемые статьи