- لماذا استخراج النص من HTML؟
- API لاستخراج نصوص HTML
- Convert HTML to TXT using C#
- استخراج النص من HTML عبر cURL
- جرّب مُستخرج نصوص HTML على الإنترنت مجانًا
لماذا نستخرج النص من HTML؟
تحتوي ملفات HTML على تعليمات وأسلوب ونصوص وبيانات وصفية أخرى. استخراج نصوص نظيفة أمر ضروري لـ:
- نقل المحتوى
- استخراج البيانات
- الفهرسة والبحث بالنص الكامل
- إعداد بيانات التدريب لنماذج الذكاء الاصطناعي/تعلم الآلة
- سير العمل لتحليل الوثائق
- معالجة رسائل البريد الإلكتروني المعتمدة على HTML
تساعدك مجموعة تطوير البرمجيات السحابية .NET على أتمتة هذه العملية بالكامل باستخدام واجهة برمجة التطبيقات بسيطة وقوية.
API لاستخراج نص HTML
مجموعة GroupDocs.Parser SDK السحابية لـ .NET تتيح استخراج:
- Visible text from HTML
- محتوى منظم (عناوين، فقرات، قوائم)
- UTF‑8 encoded content
- Text from HTML email bodies
- نص نظيف بدون سكربتات، أنماط، وتنسيقات
بخلاف قدرات واجهة برمجة التطبيقات المذكورة أعلاه، فهي تقدم أيضًا ميزات أخرى مثل:
- يزيل جميع علامات HTML
- Extracts readable plain text
- يدعم ملفات HTML كبيرة
- يقدم تقسيم كتل النص
- يعمل مع تخزين السحابة
التثبيت عبر NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
تحتاج أيضًا إلى إنشاء حساب على GroupDocs Cloud dashboard حتى تتمكن من الحصول على Client ID و Client Secret (فإنها ضرورية لاستخدام API).
تحويل HTML إلى TXT باستخدام C#
إليك مثال كامل يوضح كيفية استخراج النص من ملف HTML باستخدام SDK.
الخطوة 1 — تهيئة واجهة برمجة التطبيقات:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
الخطوة 2 — تعيين إدخال HTML:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
الخطوة 3 — استخراج النص:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
الخطوة 4 — حفظ المخرجات:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// تحميل ملف HTML مدخل من محرك الأقراص المحلي
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// رفع HTML إلى تخزين السحابة
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// Optionally, you may consider writing the content to text file
File.WriteAllText("html-output.txt", response.Text);
استخراج النص من HTML عبر cURL
بدلاً من ذلك، إذا كنت تفضل استخدام عمليات سطر الأوامر لاستخراج النص من ملف HTML، فيمكنك أيضًا استخدام GroupDocs.Parser Cloud مع أوامر cURL.
1. توليد رمز الوصول:
المتطلب في هذا النهج هو إنشاء رمز وصول JWT باستخدام بيانات اعتماد العميل. يرجى تنفيذ الأمر التالي لإنشاء رمز JWT.
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. استخراج نص HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
حاول استخراج النصوص من HTML مجانًا على الإنترنت
اختبر قدرات .NET REST API دون كتابة سطر واحد من التعليمات البرمجية. جرب تطبيقنا المجاني عبر الإنترنت HTML Parser واستخراج نصوص HTML عبر الإنترنت.

استنتاج
في هذه المقالة، تعلمت كيفية استخراج النص من HTML باستخدام GroupDocs.Parser Cloud SDK لـ .NET. يسمح واجهة برمجة التطبيقات:
- Clean text extraction
- إزالة تعليمات HTML والنصوص البرمجية
- استخراج هيكلية مقسمة
- التكامل مع تطبيقات C#
- أتمتة سير العمل لمجموعات بيانات HTML الكبيرة
إنه حل مثالي لتحليل ومعالجة HTML في تطبيقات ذات مستوى مؤسسي.
مقالات ذات صلة
- How to Save Photos from Email in C# .NET
- إضافة علامة مائية للصورة إلى PDF
- استخراج النص من PowerPoint في C# .NET
الأسئلة المتكررة (FAQs)
هل تقوم واجهة برمجة التطبيقات بإزالة جميع العلامات تلقائيًا؟ نعم، يتم إرجاع النص القابل للقراءة فقط.
هل يمكنه تحليل صفحات HTML كبيرة جدًا؟ نعم، الخدمة مُحسَّنة للإدخالات الكبيرة.
هل يمكنني استخراج النص حسب الأقسام؟ نعم، يوفر الاستخراج المنظم عناصر على مستوى الكتل.
هل تدعم رسائل البريد الإلكتروني HTML؟ بالطبع — استخراج محتوى الجسم مباشرة.
هل أحصل على فترة تجريبية مجانية؟ نعم، 150 مكالمة API مجانية في الشهر متاحة.
