- ทำไมต้องแยกข้อความจาก HTML?
- API การดึงข้อความจาก HTML
- Convert HTML to TXT using C#
- ดึงข้อความจาก HTML ผ่าน cURL
- ลองใช้เครื่องมือดึงข้อความ HTML ออนไลน์ฟรี
ทำไมต้องแยกข้อความจาก HTML?
HTML ไฟล์ประกอบด้วยมาร์กอัป, สไตล์, สคริปต์, และข้อมูลเมตาอื่นๆ การดึงข้อความที่ชัดเจนเป็นสิ่งสำคัญสำหรับ:
- การถ่ายโอนเนื้อหา
- การดึงข้อมูล
- การจัดทำดัชนี & การค้นหาข้อความเต็มรูปแบบ
- การเตรียมข้อมูลการฝึกอบรมสำหรับโมเดล AI/ML
- การวิเคราะห์เอกสารเวิร์กโฟลว์
- การประมวลผลอีเมลที่ใช้ HTML
SDK คลาวด์ .NET ของเราช่วยให้คุณทำให้กระบวนการทั้งหมดนี้เป็นอัตโนมัติด้วย API ที่เรียบง่ายและทรงพลัง
API การดึงเนื้อหา HTML
GroupDocs.Parser Cloud SDK สำหรับ .NET ช่วยให้สามารถดึงข้อมูลจาก:
- Visible text from HTML
- เนื้อหาที่มีโครงสร้าง (หมวดหมู่, ย่อหน้า, รายการ)
- UTF‑8 encoded content
- Text from HTML email bodies
- Clean text without scripts, styles, and markup
นอกจากความสามารถของ API ที่กล่าวถึงข้างต้นแล้ว มันยังมีฟีเจอร์อื่น ๆ เช่น:
- Removes all HTML tags
- Extracts readable plain text
- รองรับไฟล์ HTML ขนาดใหญ่
- Provides text block segmentation
- ทำงานกับการจัดเก็บข้อมูลบนคลาวด์
ติดตั้งผ่าน NuGet
dotnet add package GroupDocs.Parser-Cloud --version 25.7.0
คุณยังต้องสร้างบัญชีใน GroupDocs Cloud dashboard เพื่อให้คุณสามารถขอรับ Client ID & Client Secret (จำเป็นต้องใช้สำหรับการใช้ API)
แปลง HTML เป็น TXT โดยใช้ C#
นี่คือตัวอย่างที่สมบูรณ์ซึ่งแสดงวิธีการดึงข้อความจากไฟล์ HTML โดยใช้ SDK.
ขั้นตอนที่ 1 — เริ่มต้น API:
var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);
ขั้นตอนที่ 2 — ตั้งค่า HTML Input:
var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);
ขั้นตอนที่ 3 — ดึงข้อความ:
var response = parserApi.Text(request);
Console.WriteLine(response.Text);
ขั้นตอนที่ 4 — บันทึกผลลัพธ์:
File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// โหลดไฟล์ HTML จากไดรฟ์ภายในเครื่อง
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
// อัปโหลด HTML ไปยังคลาวด์สโตเรจ
var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "input.html" }
};
var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);
// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
// ในกรณีที่เป็นไปได้ คุณอาจพิจารณาเขียนเนื้อหาไปยังไฟล์ข้อความ
File.WriteAllText("html-output.txt", response.Text);
Extract Text from HTML via cURL
ทางเลือกหนึ่ง หากคุณต้องการใช้การดำเนินการในบรรทัดคำสั่งเพื่อดึงข้อความจากไฟล์ HTML คุณยังสามารถใช้ GroupDocs.Parser Cloud กับคำสั่ง cURL ได้อีกด้วย
1. สร้าง Access Token:
ข้อกำหนดเบื้องต้นในวิธีการนี้คือการสร้างโทเคนการเข้าถึง JWT โดยใช้ข้อมูลรับรองของผู้ใช้ กรุณาเรียกใช้คำสั่งต่อไปนี้เพื่อสร้างโทเคน JWT。
curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
2. ดึงข้อความ HTML:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {JWT_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.html\", \"StorageName\": \"internal\" }}"
ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี
สัมผัสความสามารถของ .NET REST API โดยไม่ต้องเขียนโค้ดสักบรรทัด ลองใช้แอปออนไลน์ฟรี HTML Parser ของเราและแยกข้อความ HTML ออนไลน์

บทสรุป
ในบทความนี้ คุณได้เรียนรู้วิธีการดึงข้อความจาก HTML โดยใช้ GroupDocs.Parser Cloud SDK สำหรับ .NET。 API ช่วยให้:
- Clean text extraction
- การลบโค้ด HTML และสคริปต์
- การสกัดข้อมูลที่มีโครงสร้างแบบแบ่งส่วน
- การรวมเข้ากับแอปพลิเคชัน C#
- เวิร์กโฟลว์อัตโนมัติสำหรับชุดข้อมูล HTML ขนาดใหญ่
มันเป็นโซลูชันที่เหมาะสมสำหรับการวิเคราะห์และประมวลผล HTML ในแอปพลิเคชันระดับองค์กร
บทความที่เกี่ยวข้อง
คำถามที่พบบ่อย (FAQs)
API ลบแท็กทั้งหมดโดยอัตโนมัติหรือไม่? Yes, only readable text is returned.
มันสามารถประมวลผลหน้า HTML ขนาดใหญ่ได้หรือไม่? ใช่ บริการนั้นได้รับการปรับแต่งให้เหมาะสมกับข้อมูลขนาดใหญ่
ฉันสามารถดึงข้อความเป็นส่วน ๆ ได้หรือไม่? ใช่ การดึงข้อมูลที่มีโครงสร้างจะส่งคืนองค์ประกอบในระดับบล็อก
มันรองรับอีเมล HTML ไหม? Absolutely — extract body content directly.
ฉันจะได้รับการทดลองใช้ฟรีหรือไม่? ใช่ มีการโทร API ฟรี 150 ครั้งต่อเดือน disponible.
