
Відкриття тексту з PDF файлів є важливим для індексації контенту, автоматизації та аналізу даних. Завдяки GroupDocs.Parser Cloud SDK для Node.js, ви можете програмно витягувати простий або структурований текст з PDF через простий RESTful API — без залежності від громіздких інструментів або ручного парсингу.
Чому необхідно витягувати текст з PDF?
Витягування тексту з PDF є важливим для:
- Будівництво систем управління документами або конвеєрів оптичного розпізнавання символів (OCR).
- Автоматизація збору даних з контрактів, рахунків та звітів.
- Увімкнення повнотекстового пошуку для цифрових архівів.
- Очищення та структурування контенту для моделей ШІ/МО.
Давайте детальніше розглянемо наступні теми:
- Текстовий екстракційний REST API
- Як витягти текст з PDF за допомогою Node.js
- Витягти текст з PDF за допомогою cURL
- Онлайн вилучення тексту
Текстовий extraction REST API
Ось GroupDocs.Parser Cloud SDK for Node.js є легким, високопродуктивним обгорткою для взаємодії з REST API GroupDocs.Parser Cloud. Він дозволяє розробникам витягувати структурований або неструктурований вміст, наприклад:
- Text (весь документ, конкретні сторінки або вибрані області)
- Images
- Метадані
- Поля документа
- Структуровані дані з таблиць або форм
Він підтримує численні формати — включно з PDF, Word, Excel, PowerPoint, MSG, ZIP та інші.
Передумови Встановіть GroupDocs.Parser Cloud SDK для Node.js:
npm install groupdocs-parser-cloud
Створіть обліковий запис на GroupDocs.Cloud Dashboard, щоб отримати ваш Client ID та Client Secret для аутентифікації. Для отримання додаткової інформації, будь ласка, відвідайте цю статтю.
Як витягти текст з PDF за допомогою Node.js
Слідкуйте за цими кроками, щоб витягти текст з PDF за допомогою Node.js SDK.
Крок 1: Налаштуйте конфігурацію:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Крок 2: Налаштувати вхідний PDF файл: Ініціалізуйте об’єкт класу TextRequest і передайте екземпляр класу TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Крок 3: Витягти текст з PDF: Викличте метод text, і він поверне простий текстовий вміст вашого PDF.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Для отримання додаткових прикладів, будь ласка, відвідайте https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Ви можете побачити вихідні дані вище наведеного зразка коду на зображенні нижче:

Extract Text from PDF via cURL
Якщо ви віддаєте перевагу роботі з командним рядком або хочете інтегрувати це у сценарій? Ви можете витягнути текст, використовуючи cURL з REST API GroupDocs.Parser.
Крок 1 – Згенерувати токен доступу:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Крок 2 – Витягування зображень через REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Замість вставте той, який ви згенерували.
Переваги використання cURL з GroupDocs.Parser API
- Не потрібно SDK: Використовуйте REST безпосередньо для швидкої інтеграції.
- Платформонезалежний: Працює з будь-якою ОС або мовою.
- Ідеально для CI/CD конвеєрів: автоматизуйте витяг тексту у середовищах DevOps.
- Легковаговий: Ніяких установок, окрім cURL.
Online Text Extractor
Якщо ви шукаєте безкодове рішення, тоді використовуйте наш безкоштовний онлайн PDF Text Extractor, який працює на базі GroupDocs.Parser Cloud.

Висновок
GroupDocs.Parser Cloud SDK для Node.js спрощує витягування тексту з PDF-документів, незалежно від того, чи потрібно вам повне розпізнавання вмісту, видобування даних чи автоматизація документів. Завдяки підтримці RESTful викликів та інтеграції cURL, цей API ідеально підходить для створення сучасних, масштабованих застосунків для обробки документів у Node.js або інших середовищах.
📚 Додаткові ресурси
Часто задавані питання – FAQи
How do I extract images from Word?
Ви можете використовувати GroupDocs.Parser Cloud SDKs, щоб програмно витягувати текст з PDF-файлів. Будь ласка, відвідайте це link для отримання додаткової інформації.
Яка модель ціноутворення?
Ми пропонуємо єдину модель оплати за фактом користування. Для отримання додаткової інформації, будь ласка, відвідайте pricing guide.