
Если вам нужно извлечь простой или структурированный текст из документов Microsoft Word для автоматизации, индексирования или анализа, GroupDocs.Parser Cloud SDK для Node.js предлагает надежное RESTful решение. Всего несколькими строками кода вы можете извлечь содержимое из .doc и .docx файлов без установки Microsoft Word или использования каких-либо серверных инструментов.
- API для извлечения текста из документа Word
- Как извлечь текст из Word с помощью Node.js
- Извлечение текста из Word через cURL
- Онлайн извлекатель текста из документов Word
API для извлечения текста из документа Word
Группа GroupDocs.Parser Cloud SDK для Node.js является оберткой для REST API, которая упрощает извлечение:
- Текст (полный документ или отдельные страницы).
- Таблицы и структурированные данные.
- Метаданные и встроенные поля.
- Вложения и изображения.
Он поддерживает различные форматы, включая PDF, Word, Excel, PowerPoint, MSG, ZIP и другие.
Предварительные требования
- Создайте аккаунт на GroupDocs.Cloud Dashboard.
- Получите свой Идентификатор клиента и Секрет клиента.
- Установить SDK:
npm install groupdocs-parser-cloud
Вы можете рассмотреть возможность посещения следующей статьи, чтобы узнать больше о том, как получить ваш Client ID и Client Secret для аутентификации.
API для извлечения текста из документа Word
Пожалуйста, выполните шаги, указанные ниже, чтобы узнать, как извлечь текст из документа Word с помощью Node.js SDK.
Шаг 1: Инициализировать конфигурацию:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Шаг 2: Настройка информации о файле и параметров текста: Инициализируйте объект класса TextRequest и передайте экземпляр класса TextOptions.
const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Шаг 3: Извлечь текст из файла Word: Вызовите text метод, и он вернет чистый текст из документа Word.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Вы можете увидеть результат приведенного выше примера кода на изображении ниже:

Извлечение текста из Word с помощью cURL
Если вы предпочитаете операции командной строки или хотите интегрировать это в скрипт, вы можете извлечь текст из документа Word, используя cURL и GroupDocs.Parser REST API.
Шаг 1 – Сгенерировать токен доступа:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Шаг 2 – Извлечение текста через вызов API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"sample.docx\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Замените на тот, который вы сгенерировали.
Преимущества использования cURL с API GroupDocs.Parser
- ✅ Нет установки SDK.
- ✅ Автоматизация кросс-платформ.
- ✅ Идеально для шелл-скриптов и CI конвейеров.
- ✅ Эффективный и легкий.
Онлайн извлекатель текста из документов
Используйте наш Free Online Word Text Extractor, работающий на GroupDocs.Parser Cloud, если вы предпочитаете вариант без кода.

Заключение
С помощью GroupDocs.Parser Cloud SDK для Node.js вы можете легко извлекать текст из документов Word (.docx или .doc) для автоматизации, индексации или интеллектуального анализа данных. SDK и REST API предлагают гибкие и масштабируемые варианты, независимо от того, предпочитаете ли вы Node.js или прямые команды cURL.
📚 Дополнительные ресурсы
Часто задаваемые вопросы – FAQs
- Могу ли я также извлекать текст из таблиц DOCX?
- Да. GroupDocs.Parser может извлекать структурированное содержимое, включая ячейки таблиц и данные о макете.
- Microsoft Word требуем?
- Нет. API работает в облаке и не зависит от Microsoft Office.
- Какова модель ценообразования?
- Мы предлагаем модель ценового анализа “оплата по мере использования”. Для получения дополнительной информации, пожалуйста, посетите pricing guide.
- Can I have free trial?
- Да. Как только вы подписались на бесплатный пробный аккаунт, вы можете делать 150 API вызовов в месяц бесплатно. Пожалуйста, посетите pricing guide для получения дополнительной информации.