Витягти текст з HTML | HTML текстовий парсер

Чому потрібно витягувати текст з HTML?
HTML Text Extraction API
Convert HTML to TXT using C#
Витягти текст з HTML за допомогою cURL
Спробуйте безкоштовний онлайн-екстрактор тексту з HTML

Чому витягувати текст з HTML?

HTML файли містять розмітку, стилі, скрипти та інші метадані. Витяг чистого тексту є необхідним для:

Міграція контенту
Data scraping
Індексація та повнотекстовий пошук
Підготовка навчальних даних для моделей ШІ/МЛ
Документальні аналітичні робочі процеси
Обробка електронних листів на основі HTML

Наш .NET хмарний SDK допомагає вам автоматизувати весь цей процес, використовуючи простий і потужний API.

HTML Text Extraction API

GroupDocs.Parser Cloud SDK для .NET дозволяє витягування:

Visible text from HTML
Структурований вміст (заголовки, абзаци, списки)
UTF‑8 encoded content
Text from HTML email bodies
Clean text without scripts, styles, and markup

Окрім можливостей API, згаданих вище, він також пропонує інші функції, такі як:

Видаляє всі HTML теги
Extracts readable plain text
Підтримує великі HTML файли
Provides text block segmentation
Працює з хмарним зберіганням

Встановити через NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

Вам також потрібно створити обліковий запис на GroupDocs Cloud dashboard, щоб ви могли отримати Client ID та Client Secret (вони необхідні для використання API).

Convert HTML to TXT using C#

Ось повний приклад, що демонструє, як витягти текст з HTML-файлу, використовуючи SDK.

Крок 1 — Ініціалізувати API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

Крок 2 — Встановіть HTML-вхід:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

Крок 3 — Витягти текст:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

Крок 4 — Зберегти вихідні дані:

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Завантажити файл HTML з локального диска
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // завантажити HTML на хмарне зберігання
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

Альтернативно, якщо ви віддаєте перевагу використанню командного рядка для витягування тексту з HTML-файлу, ви також можете використовувати GroupDocs.Parser Cloud з командами cURL.

1. Генерація токена доступу:

Передумовою цього підходу є генерація токена доступу JWT з використанням облікових даних клієнта. Будь ласка, виконайте наступну команду для генерації токена JWT.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. Витягти текст HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

Спробуйте безкоштовний онлайн екстрактор тексту з HTML

Відчуйте можливості .NET REST API без написання жодного рядка коду. Спробуйте наш безкоштовний онлайн HTML Parser додаток та витягніть HTML текст онлайн.

Висновок

У цій статті ви дізналися, як витягувати текст з HTML за допомогою GroupDocs.Parser Cloud SDK для .NET. API дозволяє:

Clean text extraction
Видалення HTML-розмітки та скриптів
Сегментоване структуроване видобування
Інтеграція з C# додатками
Автоматизовані робочі процеси для великих наборів даних HTML

Це ідеальне рішення для розбору та обробки HTML в програмах корпоративного рівня.

Пов`язані статті

Часто задавані питання (FAQs)

Чи видаляє API всі теги автоматично? Так, тільки читабельний текст повертається.
Чи може він аналізувати дуже великі HTML-сторінки? Так, служба оптимізована для великих вхідних даних.
Чи можу я витягнути текст по секціях? Так, структурований екстракція повертає елементи на рівні блоків.
Чи підтримує він HTML електронні листи? Absolutely — extract body content directly.
Чи отримую я безкоштовну пробну версію? Так, доступні 150 безкоштовних викликів API на місяць.

Чому витягувати текст з HTML?#

HTML Text Extraction API#

Встановити через NuGet#

Convert HTML to TXT using C##

Крок 1 — Ініціалізувати API:#

Крок 2 — Встановіть HTML-вхід:#

Крок 3 — Витягти текст:#

Крок 4 — Зберегти вихідні дані:#

Extract Text from HTML via cURL#

1. Генерація токена доступу:#

2. Витягти текст HTML:#

Спробуйте безкоштовний онлайн екстрактор тексту з HTML#

Висновок#

Пов`язані статті#

Часто задавані питання (FAQs)#