چرا متن را از HTML استخراج کنیم؟

فایل‌های HTML حاوی نشانه‌گذاری، سبک‌ها، اسکریپت‌ها و دیگر متاداده‌ها هستند. استخراج متن تمیز برای موارد زیر ضروری است:

  • مهاجرت محتوا
  • داده‌برداری
  • فهرست‌گذاری و جستجوی متن کامل
  • آماده‌سازی داده‌های آموزشی برای مدل‌های هوش مصنوعی/یادگیری ماشین
  • جریان‌های کاری تحلیل مدارک
  • پردازش ایمیل‌های مبتنی بر HTML

SDK Cloud .NET ما به شما کمک می‌کند تا این فرآیند کامل را با استفاده از یک API ساده و قدرتمند خودکار کنید.


API استخراج متن HTML

SDK Cloud GroupDocs.Parser برای .NET اجازه استخراج اطلاعات را می‌دهد:

  • متن قابل مشاهده از HTML
  • محتوای ساختار یافته (عناوین، پاراگراف‌ها، لیست‌ها)
  • محتوای کدگذاری شده UTF‑8
  • متن از بدن ایمیل های HTML
  • متن پاک بدون اسکریپت‌ها، استایل‌ها و نشانه‌گذاری

به جز قابلیت‌های API که در بالا ذکر شد، این API همچنین ویژگی‌های دیگری مانند: را ارائه می‌دهد:

  • تمام تگ‌های HTML را حذف می‌کند
  • Extracts readable plain text
  • پشتیبانی از پرونده های بزرگ HTML
  • Provides text block segmentation
  • با ذخیره‌سازی ابری کار می‌کند

از طریق NuGet نصب کنید

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

شما همچنین باید یک حساب کاربری در GroupDocs Cloud dashboard ایجاد کنید تا بتوانید Client ID و Client Secret را دریافت کنید (اینها برای استفاده از API ضروری هستند).


HTML را با استفاده از C# به TXT تبدیل کنید

اینجا یک مثال کامل نشان می‌دهد که چگونه می‌توان متن را از یک فایل HTML با استفاده از SDK استخراج کرد.

مرحله 1 — راه‌اندازی API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

مرحله ۲ — تنظیم ورودی HTML:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

مرحله ۳ — استخراج متن:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

مرحله ۴ — خروجی را ذخیره کنید:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// بارگذاری فایل HTML ورودی از درایو محلی
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // بارگذاری HTML به ذخیره‌سازی ابری
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// به صورت اختیاری، می‌توانید محتوا را در فایل متنی بنویسید.
File.WriteAllText("html-output.txt", response.Text);

متن را از HTML با استفاده از cURL استخراج کنید

در عوض، اگر ترجیح می‌دهید از عملیات خط فرمان برای استخراج متن از یک فایل HTML استفاده کنید، می‌توانید از GroupDocs.Parser Cloud با دستورات cURL نیز استفاده کنید.

1. توکن دسترسی تولید کنید:

پیش‌نیاز در این رویکرد این است که یک توکن دسترسی JWT با استفاده از اعتبارنامه‌های کلاینت تولید شود. لطفاً دستور زیر را برای تولید یک توکن JWT اجرا کنید.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. استخراج متن HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

ابزار استخراج متن HTML آنلاین رایگان را امتحان کنید

قابلیت های .NET REST API را بدون نوشتن حتی یک خط کد تجربه کنید. اپلیکیشن آنلاین رایگان ما HTML Parser را امتحان کنید و متن HTML را به صورت آنلاین استخراج کنید.

extract html text

نتیجه‌گیری

در این مقاله، شما یاد گرفتید که چگونه متن را از HTML با استفاده از GroupDocs.Parser Cloud SDK برای .NET استخراج کنید. API امکان می‌دهد:

  • استخراج متن تمیز
  • حذف نشانه گذاری HTML و اسکریپت ها
  • استخراج ساختاری segmented
  • ادغام با برنامه‌های C#
  • جریان‌های کاری خودکار برای مجموعه‌های بزرگ داده‌های HTML

این یک راه حل ایده آل برای تجزیه و پردازش HTML در برنامه‌های با کیفیت سازمانی است.


مقالات مرتبط


سوالات متداول (FAQs)

  1. آیا API تمام تگ‌ها را به طور خودکار حذف می‌کند؟ Yes, only readable text is returned.

  2. آیا می‌تواند صفحات HTML بسیار بزرگ را تجزیه کند؟ بله، این سرویس برای ورودی‌های بزرگ بهینه‌سازی شده است.

  3. آیا می‌توانم متن را بخش به بخش استخراج کنم؟ بله، استخراج ساختار یافته عناصر سطح بلوک را بازمی‌گرداند.

۴. آیا از ایمیل‌های HTML پشتیبانی می‌کند؟ کاملاً — محتوای بدنه را به صورت مستقیم استخراج کنید.

  1. آیا یک دوره آزمایشی رایگان دریافت می‌کنم؟ بله، 150 تماس API رایگان در هر ماه در دسترس است.