Преобразование документов Word (DOC, DOCX) в текстовый формат является распространенной задачей при извлечении данных, индексировании или автоматизации workflows. С помощью .NET Cloud SDK вы можете легко извлекать текст из документов Word для обработки естественного языка, анализа контента или хранения больших объемов текстовых данных без зависимости от Microsoft Word.
- API для преобразования Word в текст
- Преобразование DOCX в TXT с использованием C#
- Извлечение текста из Word с помощью cURL
API преобразования слов в текст
GroupDocs.Parser Cloud SDK for .NET предлагает мощные инструменты для разбора, извлечения и конвертации документов Word в текстовый формат. Он поддерживает форматы DOC, DOCX и другие популярные форматы документов, предоставляя разработчикам быстрый способ создания конвертеров документов в текст или docx в txt в приложениях .NET.
Предварительные условия
- Зарегистрируйтесь на GroupDocs Cloud Dashboard.
- Получите свой идентификатор клиента и секрет клиента. Для получения дополнительной информации, пожалуйста, посетите этот статью.
- Установите .NET 6.0 или более позднюю версию и Visual Studio.
- Установите SDK из пакетов NuGet:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0
Преобразование DOCX в TXT с использованием C#
Вот простой пример, демонстрирующий, как преобразовать DOCX в TXT или извлечь текст из документов Word с использованием GroupDocs.Parser Cloud SDK для .NET.
1.: Инициализируйте конфигурацию API
var config = new Configuration
{
ClientId = "YOUR_CLIENT_ID",
ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);
2.: Вызовите метод Parse, чтобы извлечь текстовое содержание документа. Инициализируйте объект ImagesRequest, где мы передаем экземпляр класса ImagesOptions в качестве аргумента.
var response = parserApi.Parse(new ParseRequest("sample.docx"));
3.: Сохраните извлеченный текст как файл .txt локально для дальнейшей обработки.
File.WriteAllText("output.txt", response.Text);
- 💡 Вы также можете извлекать текст с конкретных страниц или параграфов, установив фильтры в параметре ParseOptions.
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
// upload the input Word document to cloud storage
var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.docx" }
};
var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
Извлечение текста из Word с помощью cURL
Если вы предпочитаете командные операции, вы можете использовать REST API напрямую через cURL для онлайн-конвертации DOC или DOCX в текст.
Шаг 1: Получить токен доступа:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Шаг 2: Конвертируйте DOCX в TXT:
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "{outputFile}.txt"
Замените {inputFile} на название вашего файла Word и {outputFile} на желаемое имя TXT файла для сохранения локально.
Бесплатный конвертер DOCX в TXT онлайн
Если вы хотите быстро попробовать Word to text conversion online, ознакомьтесь с бесплатным конвертером DOCX в TXT. Он позволяет вам загружать и мгновенно конвертировать любой файл Word в текстовый формат непосредственно в вашем браузере — установка или программирование не требуется.

Резюме
Мы исследовали, что наш .NET Cloud SDK предоставляет надежное облачное решение для извлечения текста из документов Word и преобразования его в формат TXT. Это упрощает извлечение данных, анализ содержимого и интеграцию с системы обработки документов для предприятий.
Почему стоит использовать GroupDocs.Parser Cloud?
- Поддерживает форматы DOC и DOCX.
- Легкая интеграция с .NET приложениями.
- 100% Облачный — Microsoft Word не требуется.
- Сгенерируйте чистый TXT-вывод, готовый для обработки данных или хранения.
Часто задаваемые вопросы (ЧЗВ)
- Can I convert DOCX to TXT using C#?
- Да. SDK позволяет вам извлекать и сохранять текст из документов Word непосредственно в формате TXT.
- Поддерживает ли он файлы DOC, а также файлы DOCX?
- Да. Оба формата файлов полностью поддерживаются для конвертации и извлечения текста.
- Microsoft Word требуется для этого преобразования?
- Нет. Конвертация выполняется полностью на платформе GroupDocs Cloud.
- Могу ли я выбрать конкретные разделы или страницы для извлечения?
- Да. Вы можете определить диапазоны страниц или области для частичного извлечения текста.
