Витягування тексту з PDF в Node.js | API для витягнення тексту REST

Витягнення тексту з PDF за допомогою Node.js - Витягувач тексту

Відкриття тексту з PDF файлів є важливим для індексації контенту, автоматизації та аналізу даних. Завдяки GroupDocs.Parser Cloud SDK для Node.js, ви можете програмно витягувати простий або структурований текст з PDF через простий RESTful API — без залежності від громіздких інструментів або ручного парсингу.

Чому необхідно витягувати текст з PDF?

Витягування тексту з PDF є важливим для:

Будівництво систем управління документами або конвеєрів оптичного розпізнавання символів (OCR).
Автоматизація збору даних з контрактів, рахунків та звітів.
Увімкнення повнотекстового пошуку для цифрових архівів.
Очищення та структурування контенту для моделей ШІ/МО.

Давайте детальніше розглянемо наступні теми:

Текстовий екстракційний REST API
Як витягти текст з PDF за допомогою Node.js
Витягти текст з PDF за допомогою cURL
Онлайн вилучення тексту

Текстовий extraction REST API

Ось GroupDocs.Parser Cloud SDK for Node.js є легким, високопродуктивним обгорткою для взаємодії з REST API GroupDocs.Parser Cloud. Він дозволяє розробникам витягувати структурований або неструктурований вміст, наприклад:

Text (весь документ, конкретні сторінки або вибрані області)
Images
Метадані
Поля документа
Структуровані дані з таблиць або форм

Він підтримує численні формати — включно з PDF, Word, Excel, PowerPoint, MSG, ZIP та інші.

Передумови Встановіть GroupDocs.Parser Cloud SDK для Node.js:

npm install groupdocs-parser-cloud

Створіть обліковий запис на GroupDocs.Cloud Dashboard, щоб отримати ваш Client ID та Client Secret для аутентифікації. Для отримання додаткової інформації, будь ласка, відвідайте цю статтю.

Як витягти текст з PDF за допомогою Node.js

Слідкуйте за цими кроками, щоб витягти текст з PDF за допомогою Node.js SDK.

Крок 1: Налаштуйте конфігурацію:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Крок 2: Налаштувати вхідний PDF файл: Ініціалізуйте об’єкт класу TextRequest і передайте екземпляр класу TextOptions.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

Крок 3: Витягти текст з PDF: Викличте метод text, і він поверне простий текстовий вміст вашого PDF.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

// Для отримання додаткових прикладів, будь ласка, відвідайте https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

Ви можете побачити вихідні дані вище наведеного зразка коду на зображенні нижче:

Extract Text from PDF via cURL

Якщо ви віддаєте перевагу роботі з командним рядком або хочете інтегрувати це у сценарій? Ви можете витягнути текст, використовуючи cURL з REST API GroupDocs.Parser.

Крок 1 – Згенерувати токен доступу:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Крок 2 – Витягування зображень через REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"

Замість вставте той, який ви згенерували.

Переваги використання cURL з GroupDocs.Parser API

Не потрібно SDK: Використовуйте REST безпосередньо для швидкої інтеграції.
Платформонезалежний: Працює з будь-якою ОС або мовою.
Ідеально для CI/CD конвеєрів: автоматизуйте витяг тексту у середовищах DevOps.
Легковаговий: Ніяких установок, окрім cURL.

Online Text Extractor

Якщо ви шукаєте безкодове рішення, тоді використовуйте наш безкоштовний онлайн PDF Text Extractor, який працює на базі GroupDocs.Parser Cloud.

Висновок

GroupDocs.Parser Cloud SDK для Node.js спрощує витягування тексту з PDF-документів, незалежно від того, чи потрібно вам повне розпізнавання вмісту, видобування даних чи автоматизація документів. Завдяки підтримці RESTful викликів та інтеграції cURL, цей API ідеально підходить для створення сучасних, масштабованих застосунків для обробки документів у Node.js або інших середовищах.

📚 Додаткові ресурси

GroupDocs.Parser Documentation
API Reference
GitHub SDK Repository
Форум підтримки
Ціни та плани

Часто задавані питання – FAQи

How do I extract images from Word?

Ви можете використовувати GroupDocs.Parser Cloud SDKs, щоб програмно витягувати текст з PDF-файлів. Будь ласка, відвідайте це link для отримання додаткової інформації.

Яка модель ціноутворення?

Ми пропонуємо єдину модель оплати за фактом користування. Для отримання додаткової інформації, будь ласка, відвідайте pricing guide.

Витягнення тексту з PDF в Node.js | API витягнення тексту з REST

Чому необхідно витягувати текст з PDF?

Текстовий extraction REST API

Як витягти текст з PDF за допомогою Node.js

Extract Text from PDF via cURL

Переваги використання cURL з GroupDocs.Parser API

Online Text Extractor

Висновок

📚 Додаткові ресурси

Часто задавані питання – FAQи

Рекомендовані статті

Чому необхідно витягувати текст з PDF?#

Текстовий extraction REST API#

Як витягти текст з PDF за допомогою Node.js#

Extract Text from PDF via cURL#

Переваги використання cURL з GroupDocs.Parser API#

Online Text Extractor#

Висновок#

📚 Додаткові ресурси#

Часто задавані питання – FAQи#

Рекомендовані статті#

Чому необхідно витягувати текст з PDF?

Текстовий extraction REST API

Як витягти текст з PDF за допомогою Node.js

Extract Text from PDF via cURL

Переваги використання cURL з GroupDocs.Parser API

Online Text Extractor

Висновок

📚 Додаткові ресурси

Часто задавані питання – FAQи

Рекомендовані статті