
Разблокировка текста из PDF файлов имеет важное значение для индексирования контента, автоматизации и анализа данных. С помощью GroupDocs.Parser Cloud SDK для Node.js вы можете программно извлекать простой или структурированный текст из PDF через простой RESTful API — без зависимости от громоздких инструментов или ручного парсинга.
Почему нужно извлекать текст из PDF?
Извлечение текста из PDF-документов имеет важное значение для:
- Создание систем управления документами или OCR пайплайнов.
- Автоматизация сбора данных из контрактов, счетов и отчетов.
- Включение полнотекстового поиска для цифровых архивов.
- Очистка и структурирование контента для моделей ИИ/МЛ.
Давайте рассмотрим следующие темы более подробно:
- Текстовый извлекающий REST API
- Как извлечь текст из PDF с использованием Node.js
- Извлечение текста из PDF с помощью cURL
- Онлайн извлекатель текста
API для извлечения текста
GroupDocs.Parser Cloud SDK for Node.js является легким, высокопроизводительным оберткой для взаимодействия с API GroupDocs.Parser Cloud REST. Он позволяет разработчикам извлекать структурированный или неструктурированный контент, такой как:
- Текст (весь документ, определенные страницы или выбранные области)
- Images
- Метаданные
- Поля документа
- Структурированные данные из таблиц или форм
Он поддерживает множество форматов — включая PDF, Word, Excel, PowerPoint, MSG, ZIP и другие.
Предварительные условия Установите облачный SDK GroupDocs.Parser для Node.js:
npm install groupdocs-parser-cloud
Создайте учетную запись на GroupDocs.Cloud Dashboard, чтобы получить свой Client ID и Client Secret для аутентификации. Для получения дополнительной информации, пожалуйста, посетите эту article.
Как извлечь текст из PDF с помощью Node.js
Следуйте этим шагам, чтобы извлечь текст из PDF, используя SDK Node.js.
Шаг 1: Настройка конфигурации:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Шаг 2: Настройка ввода PDF-файла: Инициализируйте объект класса TextRequest и передайте экземпляр класса TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Шаг 3: Извлечение текста из PDF: Вызовите text метод, и он вернет содержание вашего PDF в обычном текстовом формате.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Вы можете увидеть вывод приведенного выше образца кода на изображении ниже:

Извлечение текста из PDF с помощью cURL
Если вы предпочитаете команды командной строки или хотите интегрировать это в скрипт? Вы можете извлечь текст, используя cURL с REST API GroupDocs.Parser.
Шаг 1 – Генерация токена доступа:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Шаг 2 – Извлеките изображения через REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Замените на тот, который вы создали.
Преимущества использования cURL с API GroupDocs.Parser
- Нет необходимости в SDK: используйте REST напрямую для быстрого интегрирования.
- Платформонезависимый: Работает с любой ОС или языком.
- Идеально подходит для CI/CD пайплайнов: Автоматизируйте извлечение текста в средах DevOps.
- Легковесный: Нет установок, кроме cURL.
Онлайн текстовый экстрактор
Если вы ищете безкодовое решение, то используйте наш бесплатный онлайн PDF Text Extractor, работающий на GroupDocs.Parser Cloud.

Заключение
GroupDocs.Parser Cloud SDK для Node.js позволяет легко извлекать текст из PDF, будь то полное извлечение содержания, добыча данных или автоматизация документов. С поддержкой RESTful вызовов и интеграцией cURL этот API идеально подходит для создания современных, масштабируемых приложений для обработки документов в Node.js или других средах.
📚 Дополнительные ресурсы
Часто задаваемые вопросы – FAQs
Как я могу извлечь изображения из Word?
Вы можете использовать GroupDocs.Parser Cloud SDKs, чтобы программно извлекать текст из PDF-файлов. Пожалуйста, посетите эту ссылку для получения дополнительной информации.
Какова модель ценообразования?
Мы предлагаем модель ценообразования “плати по мере использования”. Для получения дополнительной информации, пожалуйста, посетите pricing guide.