- Чому потрібно витягувати текст з HTML?
- HTML Text Extraction API
- Convert HTML to TXT using C#
- Витягти текст з HTML за допомогою cURL
- Спробуйте безкоштовний онлайн-екстрактор тексту з HTML
Чому витягувати текст з HTML?
HTML файли містять розмітку, стилі, скрипти та інші метадані. Витяг чистого тексту є необхідним для:
- Міграція контенту
- Data scraping
- Індексація та повнотекстовий пошук
- Підготовка навчальних даних для моделей ШІ/МЛ
- Документальні аналітичні робочі процеси
- Обробка електронних листів на основі HTML
Наш .NET хмарний SDK допомагає вам автоматизувати весь цей процес, використовуючи простий і потужний API.
HTML Text Extraction API
GroupDocs.Parser Cloud SDK для .NET дозволяє витягування:
- Visible text from HTML
- Структурований вміст (заголовки, абзаци, списки)
- UTF‑8 encoded content
- Text from HTML email bodies
- Clean text without scripts, styles, and markup
Окрім можливостей API, згаданих вище, він також пропонує інші функції, такі як:
- Видаляє всі HTML теги
- Extracts readable plain text
- Підтримує великі HTML файли
- Provides text block segmentation
- Працює з хмарним зберіганням
Встановити через NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
Вам також потрібно створити обліковий запис на GroupDocs Cloud dashboard, щоб ви могли отримати Client ID та Client Secret (вони необхідні для використання API).
Convert HTML to TXT using C#
Ось повний приклад, що демонструє, як витягти текст з HTML-файлу, використовуючи SDK.
Крок 1 — Ініціалізувати API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Крок 2 — Встановіть HTML-вхід:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Крок 3 — Витягти текст:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Крок 4 — Зберегти вихідні дані:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Завантажити файл HTML з локального диска
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// завантажити HTML на хмарне зберігання
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);
Extract Text from HTML via cURL
Альтернативно, якщо ви віддаєте перевагу використанню командного рядка для витягування тексту з HTML-файлу, ви також можете використовувати GroupDocs.Parser Cloud з командами cURL.
1. Генерація токена доступу:
Передумовою цього підходу є генерація токена доступу JWT з використанням облікових даних клієнта. Будь ласка, виконайте наступну команду для генерації токена JWT.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. Витягти текст HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
Спробуйте безкоштовний онлайн екстрактор тексту з HTML
Відчуйте можливості .NET REST API без написання жодного рядка коду. Спробуйте наш безкоштовний онлайн HTML Parser додаток та витягніть HTML текст онлайн.

Висновок
У цій статті ви дізналися, як витягувати текст з HTML за допомогою GroupDocs.Parser Cloud SDK для .NET. API дозволяє:
- Clean text extraction
- Видалення HTML-розмітки та скриптів
- Сегментоване структуроване видобування
- Інтеграція з C# додатками
- Автоматизовані робочі процеси для великих наборів даних HTML
Це ідеальне рішення для розбору та обробки HTML в програмах корпоративного рівня.
Пов`язані статті
- How to Save Photos from Email in C# .NET
- Додати водяний знак з зображення до PDF
- Витяг тексту з PowerPoint у C# .NET
Часто задавані питання (FAQs)
Чи видаляє API всі теги автоматично? Так, тільки читабельний текст повертається.
Чи може він аналізувати дуже великі HTML-сторінки? Так, служба оптимізована для великих вхідних даних.
Чи можу я витягнути текст по секціях? Так, структурований екстракція повертає елементи на рівні блоків.
Чи підтримує він HTML електронні листи? Absolutely — extract body content directly.
Чи отримую я безкоштовну пробну версію? Так, доступні 150 безкоштовних викликів API на місяць.
