- چرا متن را از HTML استخراج کنیم؟
- API استخراج متن HTML
- Convert HTML to TXT using C#
- متن را از HTML با استفاده از cURL استخراج کنید
- تلاش کنید تا استخراج کننده متن HTML آنلاین رایگان را امتحان کنید.
چرا متن را از HTML استخراج کنیم؟
فایلهای HTML حاوی نشانهگذاری، سبکها، اسکریپتها و دیگر متادادهها هستند. استخراج متن تمیز برای موارد زیر ضروری است:
- مهاجرت محتوا
- دادهبرداری
- فهرستگذاری و جستجوی متن کامل
- آمادهسازی دادههای آموزشی برای مدلهای هوش مصنوعی/یادگیری ماشین
- جریانهای کاری تحلیل مدارک
- پردازش ایمیلهای مبتنی بر HTML
SDK Cloud .NET ما به شما کمک میکند تا این فرآیند کامل را با استفاده از یک API ساده و قدرتمند خودکار کنید.
API استخراج متن HTML
SDK Cloud GroupDocs.Parser برای .NET اجازه استخراج اطلاعات را میدهد:
- متن قابل مشاهده از HTML
- محتوای ساختار یافته (عناوین، پاراگرافها، لیستها)
- محتوای کدگذاری شده UTF‑8
- متن از بدن ایمیل های HTML
- متن پاک بدون اسکریپتها، استایلها و نشانهگذاری
به جز قابلیتهای API که در بالا ذکر شد، این API همچنین ویژگیهای دیگری مانند: را ارائه میدهد:
- تمام تگهای HTML را حذف میکند
- Extracts readable plain text
- پشتیبانی از پرونده های بزرگ HTML
- Provides text block segmentation
- با ذخیرهسازی ابری کار میکند
از طریق NuGet نصب کنید
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
شما همچنین باید یک حساب کاربری در GroupDocs Cloud dashboard ایجاد کنید تا بتوانید Client ID و Client Secret را دریافت کنید (اینها برای استفاده از API ضروری هستند).
HTML را با استفاده از C# به TXT تبدیل کنید
اینجا یک مثال کامل نشان میدهد که چگونه میتوان متن را از یک فایل HTML با استفاده از SDK استخراج کرد.
مرحله 1 — راهاندازی API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
مرحله ۲ — تنظیم ورودی HTML:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
مرحله ۳ — استخراج متن:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
مرحله ۴ — خروجی را ذخیره کنید:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// بارگذاری فایل HTML ورودی از درایو محلی
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// بارگذاری HTML به ذخیرهسازی ابری
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// به صورت اختیاری، میتوانید محتوا را در فایل متنی بنویسید.
File.WriteAllText("html-output.txt", response.Text);
متن را از HTML با استفاده از cURL استخراج کنید
در عوض، اگر ترجیح میدهید از عملیات خط فرمان برای استخراج متن از یک فایل HTML استفاده کنید، میتوانید از GroupDocs.Parser Cloud با دستورات cURL نیز استفاده کنید.
1. توکن دسترسی تولید کنید:
پیشنیاز در این رویکرد این است که یک توکن دسترسی JWT با استفاده از اعتبارنامههای کلاینت تولید شود. لطفاً دستور زیر را برای تولید یک توکن JWT اجرا کنید.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. استخراج متن HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
ابزار استخراج متن HTML آنلاین رایگان را امتحان کنید
قابلیت های .NET REST API را بدون نوشتن حتی یک خط کد تجربه کنید. اپلیکیشن آنلاین رایگان ما HTML Parser را امتحان کنید و متن HTML را به صورت آنلاین استخراج کنید.

نتیجهگیری
در این مقاله، شما یاد گرفتید که چگونه متن را از HTML با استفاده از GroupDocs.Parser Cloud SDK برای .NET استخراج کنید. API امکان میدهد:
- استخراج متن تمیز
- حذف نشانه گذاری HTML و اسکریپت ها
- استخراج ساختاری segmented
- ادغام با برنامههای C#
- جریانهای کاری خودکار برای مجموعههای بزرگ دادههای HTML
این یک راه حل ایده آل برای تجزیه و پردازش HTML در برنامههای با کیفیت سازمانی است.
مقالات مرتبط
- چگونه عکسها را از ایمیل در C# .NET ذخیره کنیم
- به PDF واترمارک تصویر اضافه کنید.
- متن را از پاورپوینت در C# .NET استخراج کنید
سوالات متداول (FAQs)
آیا API تمام تگها را به طور خودکار حذف میکند؟ Yes, only readable text is returned.
آیا میتواند صفحات HTML بسیار بزرگ را تجزیه کند؟ بله، این سرویس برای ورودیهای بزرگ بهینهسازی شده است.
آیا میتوانم متن را بخش به بخش استخراج کنم؟ بله، استخراج ساختار یافته عناصر سطح بلوک را بازمیگرداند.
۴. آیا از ایمیلهای HTML پشتیبانی میکند؟ کاملاً — محتوای بدنه را به صورت مستقیم استخراج کنید.
- آیا یک دوره آزمایشی رایگان دریافت میکنم؟ بله، 150 تماس API رایگان در هر ماه در دسترس است.
