Чому витягувати текст з HTML?

HTML файли містять розмітку, стилі, скрипти та інші метадані. Витяг чистого тексту є необхідним для:

  • Міграція контенту
  • Data scraping
  • Індексація та повнотекстовий пошук
  • Підготовка навчальних даних для моделей ШІ/МЛ
  • Документальні аналітичні робочі процеси
  • Обробка електронних листів на основі HTML

Наш .NET хмарний SDK допомагає вам автоматизувати весь цей процес, використовуючи простий і потужний API.


HTML Text Extraction API

GroupDocs.Parser Cloud SDK для .NET дозволяє витягування:

  • Visible text from HTML
  • Структурований вміст (заголовки, абзаци, списки)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Clean text without scripts, styles, and markup

Окрім можливостей API, згаданих вище, він також пропонує інші функції, такі як:

  • Видаляє всі HTML теги
  • Extracts readable plain text
  • Підтримує великі HTML файли
  • Provides text block segmentation
  • Працює з хмарним зберіганням

Встановити через NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Вам також потрібно створити обліковий запис на GroupDocs Cloud dashboard, щоб ви могли отримати Client ID та Client Secret (вони необхідні для використання API).


Convert HTML to TXT using C#

Ось повний приклад, що демонструє, як витягти текст з HTML-файлу, використовуючи SDK.

Крок 1 — Ініціалізувати API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Крок 2 — Встановіть HTML-вхід:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Крок 3 — Витягти текст:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Крок 4 — Зберегти вихідні дані:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Завантажити файл HTML з локального диска
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // завантажити HTML на хмарне зберігання
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

Альтернативно, якщо ви віддаєте перевагу використанню командного рядка для витягування тексту з HTML-файлу, ви також можете використовувати GroupDocs.Parser Cloud з командами cURL.

1. Генерація токена доступу:

Передумовою цього підходу є генерація токена доступу JWT з використанням облікових даних клієнта. Будь ласка, виконайте наступну команду для генерації токена JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Витягти текст HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Спробуйте безкоштовний онлайн екстрактор тексту з HTML

Відчуйте можливості .NET REST API без написання жодного рядка коду. Спробуйте наш безкоштовний онлайн HTML Parser додаток та витягніть HTML текст онлайн.

extract html text

Висновок

У цій статті ви дізналися, як витягувати текст з HTML за допомогою GroupDocs.Parser Cloud SDK для .NET. API дозволяє:

  • Clean text extraction
  • Видалення HTML-розмітки та скриптів
  • Сегментоване структуроване видобування
  • Інтеграція з C# додатками
  • Автоматизовані робочі процеси для великих наборів даних HTML

Це ідеальне рішення для розбору та обробки HTML в програмах корпоративного рівня.


Пов`язані статті


Часто задавані питання (FAQs)

  1. Чи видаляє API всі теги автоматично? Так, тільки читабельний текст повертається.

  2. Чи може він аналізувати дуже великі HTML-сторінки? Так, служба оптимізована для великих вхідних даних.

  3. Чи можу я витягнути текст по секціях? Так, структурований екстракція повертає елементи на рівні блоків.

  4. Чи підтримує він HTML електронні листи? Absolutely — extract body content directly.

  5. Чи отримую я безкоштовну пробну версію? Так, доступні 150 безкоштовних викликів API на місяць.