Преобразование документов Word (DOC, DOCX) в текстовый формат является распространенной задачей при извлечении данных, индексировании или автоматизации workflows. С помощью .NET Cloud SDK вы можете легко извлекать текст из документов Word для обработки естественного языка, анализа контента или хранения больших объемов текстовых данных без зависимости от Microsoft Word.

API преобразования слов в текст

GroupDocs.Parser Cloud SDK for .NET предлагает мощные инструменты для разбора, извлечения и конвертации документов Word в текстовый формат. Он поддерживает форматы DOC, DOCX и другие популярные форматы документов, предоставляя разработчикам быстрый способ создания конвертеров документов в текст или docx в txt в приложениях .NET.

Предварительные условия

  • Зарегистрируйтесь на GroupDocs Cloud Dashboard.
  • Получите свой идентификатор клиента и секрет клиента. Для получения дополнительной информации, пожалуйста, посетите этот статью.
  • Установите .NET 6.0 или более позднюю версию и Visual Studio.
  • Установите SDK из пакетов NuGet:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

Преобразование DOCX в TXT с использованием C#

Вот простой пример, демонстрирующий, как преобразовать DOCX в TXT или извлечь текст из документов Word с использованием GroupDocs.Parser Cloud SDK для .NET.

1.: Инициализируйте конфигурацию API

var config = new Configuration
{
    ClientId = "YOUR_CLIENT_ID",
    ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);

2.: Вызовите метод Parse, чтобы извлечь текстовое содержание документа. Инициализируйте объект ImagesRequest, где мы передаем экземпляр класса ImagesOptions в качестве аргумента.

var response = parserApi.Parse(new ParseRequest("sample.docx"));

3.: Сохраните извлеченный текст как файл .txt локально для дальнейшей обработки.

File.WriteAllText("output.txt", response.Text);
  • 💡 Вы также можете извлекать текст с конкретных страниц или параграфов, установив фильтры в параметре ParseOptions.
// Для получения дополнительных примеров, пожалуйста, посетите https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
    // upload the input Word document to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.docx" }
};

var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

Извлечение текста из Word с помощью cURL

Если вы предпочитаете командные операции, вы можете использовать REST API напрямую через cURL для онлайн-конвертации DOC или DOCX в текст.

Шаг 1: Получить токен доступа:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Шаг 2: Конвертируйте DOCX в TXT:

curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
  -H "accept: application/json" \
  -H "authorization: Bearer {ACCESS_TOKEN}" \
  -o "{outputFile}.txt"

Замените {inputFile} на название вашего файла Word и {outputFile} на желаемое имя TXT файла для сохранения локально.

Бесплатный конвертер DOCX в TXT онлайн

Если вы хотите быстро попробовать Word to text conversion online, ознакомьтесь с бесплатным конвертером DOCX в TXT. Он позволяет вам загружать и мгновенно конвертировать любой файл Word в текстовый формат непосредственно в вашем браузере — установка или программирование не требуется.

Бесплатный извлекатель изображений

Резюме

Мы исследовали, что наш .NET Cloud SDK предоставляет надежное облачное решение для извлечения текста из документов Word и преобразования его в формат TXT. Это упрощает извлечение данных, анализ содержимого и интеграцию с системы обработки документов для предприятий.

Почему стоит использовать GroupDocs.Parser Cloud?

  • Поддерживает форматы DOC и DOCX.
  • Легкая интеграция с .NET приложениями.
  • 100% Облачный — Microsoft Word не требуется.
  • Сгенерируйте чистый TXT-вывод, готовый для обработки данных или хранения.

Часто задаваемые вопросы (ЧЗВ)

  1. Can I convert DOCX to TXT using C#?
  • Да. SDK позволяет вам извлекать и сохранять текст из документов Word непосредственно в формате TXT.
  1. Поддерживает ли он файлы DOC, а также файлы DOCX?
  • Да. Оба формата файлов полностью поддерживаются для конвертации и извлечения текста.
  1. Microsoft Word требуется для этого преобразования?
  • Нет. Конвертация выполняется полностью на платформе GroupDocs Cloud.
  1. Могу ли я выбрать конкретные разделы или страницы для извлечения?
  • Да. Вы можете определить диапазоны страниц или области для частичного извлечения текста.

Полезные ссылки

Связанные статьи