\"Извлечение текста из HTML | Парсер HTML-текста

Зачем извлекать текст из HTML?
API для извлечения текста из HTML
Convert HTML to TXT using C#
Извлечение текста из HTML с помощью cURL
Попробуйте бесплатный онлайн-извлекатель текста HTML

Зачем извлекать текст из HTML?

HTML файлы содержат разметку, стили, скрипты и другие метаданные. Извлечение чистого текста имеет важительное значение для:

Миграция содержимого
Сбор данных
Индексация и полнотекстовый поиск
Подготовка тренировочных данных для моделей ИИ/МЛ
Рабочие процессы анализа документов
Обработка HTML-ориентированных электронных писем

Наш .NET облачный SDK помогает вам автоматизировать весь этот процесс, используя простой и мощный API.

HTML Text Extraction API

SDK GroupDocs.Parser for .NET позволяет извлечение:

Visible text from HTML
Структурированный контент (заголовки, абзацы, списки)
UTF‑8 закодированное содержимое
Text from HTML email bodies
Чистый текст без скриптов, стилей и разметки

Помимо возможностей API, упомянутых выше, он также предлагает другие функции, такие как:

Удаляет все HTML теги
Extracts readable plain text
Поддерживает большие HTML файлы
Provides text block segmentation
Работает с облачным хранилищем

Установите через NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Вам также нужно создать аккаунт на GroupDocs Cloud dashboard, чтобы вы могли получить Client ID и Client Secret (они необходимы для использования API).

Convert HTML to TXT using C#

Вот полный пример, показывающий, как извлечь текст из HTML-файла с использованием SDK.

Шаг 1 — Инициализация API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Шаг 2 — Установить HTML ввод:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Шаг 3 — Извлечь текст:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Шаг 4 — Сохранить вывод:

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Загрузить файл HTML с локального диска
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // загрузите HTML в облачное хранилище
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

Извлечение текста из HTML с помощью cURL

В качестве альтернативы, если вы предпочитаете использовать командные операции для извлечения текста из HTML-файла, вы также можете использовать GroupDocs.Parser Cloud с командами cURL.

1. Сгенерировать токен доступа:

Предварительное условие в этом подходе заключается в генерации JWT токена доступа с использованием учетных данных клиента. Пожалуйста, выполните следующую команду для генерации JWT токена.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Извлечь текст HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Попробуйте бесплатный онлайн-извлекатель текста HTML

Испытайте возможности .NET REST API, не написав ни строчки кода. Попробуйте наше 무료 онлайн HTML Parser приложение и извлеките HTML-текст онлайн.

Заключение

В этой статье вы узнали, как извлекать текст из HTML с помощью GroupDocs.Parser Cloud SDK для .NET. API позволяет:

Clean text extraction
Удаление HTML-разметки и скриптов
Сегментированная структурированная экстракция
Интеграция с C# приложениями
Автоматизированные рабочие процессы для больших наборов данных HTML

Это идеальное решение для парсинга и обработки HTML в приложениях корпоративного уровня.

Связанные статьи

Часто задаваемые вопросы (ЧЗВ)

Удаляет ли API все теги автоматически? Да, только читаемый текст возвращается.
Может ли он обрабатывать очень большие страницы HTML? Да, сервис оптимизирован для больших вводов.
Могу ли я извлекать текст по секциям? Да, структурированное извлечение возвращает элементы блочного уровня.
Поддерживает ли он HTML-邮件? Absolutely — extract body content directly.
Я получаю бесплатный период пробного использования? Да, доступно 150 бесплатных API-звонков в месяц.

Зачем извлекать текст из HTML?#

HTML Text Extraction API#

Установите через NuGet#

Convert HTML to TXT using C##

Шаг 1 — Инициализация API:#

Шаг 2 — Установить HTML ввод:#

Шаг 3 — Извлечь текст:#

Шаг 4 — Сохранить вывод:#

Извлечение текста из HTML с помощью cURL#

1. Сгенерировать токен доступа:#

2. Извлечь текст HTML:#

Попробуйте бесплатный онлайн-извлекатель текста HTML#

Заключение#

Связанные статьи#

Часто задаваемые вопросы (ЧЗВ)#