- Tại sao phải trích xuất văn bản từ HTML?
- API Trích Xuất Văn Bản HTML
- Chuyển đổi HTML sang TXT bằng C#
- Trích xuất văn bản từ HTML qua cURL
- Thử Trình Trích Xuất Văn Bản HTML Trực Tuyến Miễn Phí
Tại sao lại trích xuất văn bản từ HTML?
Các tệp HTML chứa đánh dấu, kiểu dáng, tập lệnh và các siêu dữ liệu khác. Việc trích xuất văn bản sạch là cần thiết cho:
- Di chuyển nội dung
- Data scraping
- Chỉ mục và tìm kiếm toàn văn
- Chuẩn bị dữ liệu đào tạo cho các mô hình AI/ML
- Luồng công việc phân tích tài liệu
- Xử lý email dựa trên HTML
SDK đám mây .NET của chúng tôi giúp bạn tự động hóa toàn bộ quy trình này bằng cách sử dụng một API đơn giản và mạnh mẽ.
API Trích xuất Văn bản HTML
SDK đám mây GroupDocs.Parser for .NET cho phép trích xuất:
- Visible text from HTML
- Nội dung có cấu trúc (tiêu đề, đoạn văn, danh sách)
- Nội dung được mã hóa UTF‑8
- Text from HTML email bodies
- Clean text without scripts, styles, and markup
Ngoài các khả năng của API được đề cập ở trên, nó cũng cung cấp các tính năng khác như:
- Xóa tất cả các thẻ HTML
- Extracts readable plain text
- Hỗ trợ các tệp HTML lớn
- Cung cấp phân đoạn khối văn bản
- Làm việc với lưu trữ đám mây
Cài đặt qua NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
Bạn cũng cần tạo một tài khoản trên GroupDocs Cloud dashboard để có thể lấy ID khách hàng & Mật khẩu khách hàng (chúng cần thiết để sử dụng API).
Chuyển đổi HTML sang TXT sử dụng C#
Dưới đây là một ví dụ hoàn chỉnh cho thấy cách trích xuất văn bản từ một tệp HTML bằng cách sử dụng SDK.
Bước 1 — Khởi tạo API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
Bước 2 — Thiết lập đầu vào HTML:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
Bước 3 — Trích xuất văn bản:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
Bước 4 — Lưu đầu ra:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Tải tệp HTML đầu vào từ ổ đĩa cục bộ
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// tải HTML lên dịch vụ lưu trữ đám mây
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Tùy chọn, bạn có thể xem xét việc viết nội dung vào tệp văn bản.
File.WriteAllText("html-output.txt", response.Text);
Extract Text from HTML via cURL
Ngoài ra, nếu bạn thích sử dụng các thao tác dòng lệnh để trích xuất văn bản từ tệp HTML, thì bạn cũng có thể sử dụng GroupDocs.Parser Cloud với các lệnh cURL.
1. Tạo Mã Truy Cập:
Điều kiện tiên quyết trong phương pháp này là tạo một mã thông báo truy cập JWT bằng cách sử dụng thông tin xác thực của khách hàng. Vui lòng thực hiện lệnh sau để tạo mã thông báo JWT.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. Trích xuất văn bản HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
Thử Trình Trích Xuất Văn Bản HTML Trực Tuyến Miễn Phí
Trải nghiệm khả năng của .NET REST API mà không cần viết một dòng mã nào. Hãy thử ứng dụng trực tuyến miễn phí HTML Parser của chúng tôi và trích xuất văn bản HTML trực tuyến.

Kết luận
Trong bài viết này, bạn đã học cách trích xuất văn bản từ HTML bằng cách sử dụng GroupDocs.Parser Cloud SDK cho .NET. API cho phép:
- Clean text extraction
- Xóa bỏ đánh dấu HTML và mã lệnh
- Chiết xuất cấu trúc phân đoạn
- Tích hợp với các ứng dụng C#
- Luồng công việc tự động cho các tập dữ liệu HTML lớn
Đây là một giải pháp lý tưởng để phân tích cú pháp và xử lý HTML trong các ứng dụng cấp doanh nghiệp.
Các Bài Viết Liên Quan
- Cách Lưu Ảnh từ Email trong C# .NET
- Thêm hình ảnh làm watermark vào PDF
- Trích xuất văn bản từ PowerPoint trong C# .NET
Các câu hỏi thường gặp (FAQs)
API có xóa tất cả các thẻ tự động không? Có, chỉ có văn bản có thể đọc được được trả về.
Nó có thể phân tích các trang HTML rất lớn không? Có, dịch vụ được tối ưu hóa cho các đầu vào lớn.
Tôi có thể trích xuất văn bản theo từng phần không? Có, quá trình trích xuất có cấu trúc trả về các phần tử cấp khối.
Nó có hỗ trợ email HTML không? Chắc chắn — trích xuất nội dung thân trực tiếp.
Tôi có được dùng thử miễn phí không? Có, 150 lượt gọi API miễn phí mỗi tháng có sẵn.
