- Зачем извлекать текст из HTML?
- API для извлечения текста из HTML
- Convert HTML to TXT using C#
- Извлечение текста из HTML с помощью cURL
- Попробуйте бесплатный онлайн-извлекатель текста HTML
Зачем извлекать текст из HTML?
HTML файлы содержат разметку, стили, скрипты и другие метаданные. Извлечение чистого текста имеет важительное значение для:
- Миграция содержимого
- Сбор данных
- Индексация и полнотекстовый поиск
- Подготовка тренировочных данных для моделей ИИ/МЛ
- Рабочие процессы анализа документов
- Обработка HTML-ориентированных электронных писем
Наш .NET облачный SDK помогает вам автоматизировать весь этот процесс, используя простой и мощный API.
HTML Text Extraction API
SDK GroupDocs.Parser for .NET позволяет извлечение:
- Visible text from HTML
- Структурированный контент (заголовки, абзацы, списки)
- UTF‑8 закодированное содержимое
- Text from HTML email bodies
- Чистый текст без скриптов, стилей и разметки
Помимо возможностей API, упомянутых выше, он также предлагает другие функции, такие как:
- Удаляет все HTML теги
- Extracts readable plain text
- Поддерживает большие HTML файлы
- Provides text block segmentation
- Работает с облачным хранилищем
Установите через NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
Вам также нужно создать аккаунт на GroupDocs Cloud dashboard, чтобы вы могли получить Client ID и Client Secret (они необходимы для использования API).
Convert HTML to TXT using C#
Вот полный пример, показывающий, как извлечь текст из HTML-файла с использованием SDK.
Шаг 1 — Инициализация API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Шаг 2 — Установить HTML ввод:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Шаг 3 — Извлечь текст:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Шаг 4 — Сохранить вывод:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Загрузить файл HTML с локального диска
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// загрузите HTML в облачное хранилище
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);
Извлечение текста из HTML с помощью cURL
В качестве альтернативы, если вы предпочитаете использовать командные операции для извлечения текста из HTML-файла, вы также можете использовать GroupDocs.Parser Cloud с командами cURL.
1. Сгенерировать токен доступа:
Предварительное условие в этом подходе заключается в генерации JWT токена доступа с использованием учетных данных клиента. Пожалуйста, выполните следующую команду для генерации JWT токена.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. Извлечь текст HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
Попробуйте бесплатный онлайн-извлекатель текста HTML
Испытайте возможности .NET REST API, не написав ни строчки кода. Попробуйте наше 무료 онлайн HTML Parser приложение и извлеките HTML-текст онлайн.

Заключение
В этой статье вы узнали, как извлекать текст из HTML с помощью GroupDocs.Parser Cloud SDK для .NET. API позволяет:
- Clean text extraction
- Удаление HTML-разметки и скриптов
- Сегментированная структурированная экстракция
- Интеграция с C# приложениями
- Автоматизированные рабочие процессы для больших наборов данных HTML
Это идеальное решение для парсинга и обработки HTML в приложениях корпоративного уровня.
Связанные статьи
- Как сохранить фотографии из электронной почты на C# .NET
- Добавить водяной знак изображения в PDF
- Извлечение текста из PowerPoint на C# .NET
Часто задаваемые вопросы (ЧЗВ)
Удаляет ли API все теги автоматически? Да, только читаемый текст возвращается.
Может ли он обрабатывать очень большие страницы HTML? Да, сервис оптимизирован для больших вводов.
Могу ли я извлекать текст по секциям? Да, структурированное извлечение возвращает элементы блочного уровня.
Поддерживает ли он HTML-邮件? Absolutely — extract body content directly.
Я получаю бесплатный период пробного использования? Да, доступно 150 бесплатных API-звонков в месяц.
