ทำไมต้องแยกข้อความจาก HTML?

HTML ไฟล์ประกอบด้วยมาร์กอัป, สไตล์, สคริปต์, และข้อมูลเมตาอื่นๆ การดึงข้อความที่ชัดเจนเป็นสิ่งสำคัญสำหรับ:

  • การถ่ายโอนเนื้อหา
  • การดึงข้อมูล
  • การจัดทำดัชนี & การค้นหาข้อความเต็มรูปแบบ
  • การเตรียมข้อมูลการฝึกอบรมสำหรับโมเดล AI/ML
  • การวิเคราะห์เอกสารเวิร์กโฟลว์
  • การประมวลผลอีเมลที่ใช้ HTML

SDK คลาวด์ .NET ของเราช่วยให้คุณทำให้กระบวนการทั้งหมดนี้เป็นอัตโนมัติด้วย API ที่เรียบง่ายและทรงพลัง


API การดึงเนื้อหา HTML

GroupDocs.Parser Cloud SDK สำหรับ .NET ช่วยให้สามารถดึงข้อมูลจาก:

  • Visible text from HTML
  • เนื้อหาที่มีโครงสร้าง (หมวดหมู่, ย่อหน้า, รายการ)
  • UTF‑8 encoded content
  • Text from HTML email bodies
  • Clean text without scripts, styles, and markup

นอกจากความสามารถของ API ที่กล่าวถึงข้างต้นแล้ว มันยังมีฟีเจอร์อื่น ๆ เช่น:

  • Removes all HTML tags
  • Extracts readable plain text
  • รองรับไฟล์ HTML ขนาดใหญ่
  • Provides text block segmentation
  • ทำงานกับการจัดเก็บข้อมูลบนคลาวด์

ติดตั้งผ่าน NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

คุณยังต้องสร้างบัญชีใน GroupDocs Cloud dashboard เพื่อให้คุณสามารถขอรับ Client ID & Client Secret (จำเป็นต้องใช้สำหรับการใช้ API)


แปลง HTML เป็น TXT โดยใช้ C#

นี่คือตัวอย่างที่สมบูรณ์ซึ่งแสดงวิธีการดึงข้อความจากไฟล์ HTML โดยใช้ SDK.

ขั้นตอนที่ 1 — เริ่มต้น API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

ขั้นตอนที่ 2 — ตั้งค่า HTML Input:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

ขั้นตอนที่ 3 — ดึงข้อความ:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

ขั้นตอนที่ 4 — บันทึกผลลัพธ์:

File.WriteAllText("html-output.txt", response.Text);
ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// โหลดไฟล์ HTML จากไดรฟ์ภายในเครื่อง
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // อัปโหลด HTML ไปยังคลาวด์สโตเรจ
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// ในกรณีที่เป็นไปได้ คุณอาจพิจารณาเขียนเนื้อหาไปยังไฟล์ข้อความ
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

ทางเลือกหนึ่ง หากคุณต้องการใช้การดำเนินการในบรรทัดคำสั่งเพื่อดึงข้อความจากไฟล์ HTML คุณยังสามารถใช้ GroupDocs.Parser Cloud กับคำสั่ง cURL ได้อีกด้วย

1. สร้าง Access Token:

ข้อกำหนดเบื้องต้นในวิธีการนี้คือการสร้างโทเคนการเข้าถึง JWT โดยใช้ข้อมูลรับรองของผู้ใช้ กรุณาเรียกใช้คำสั่งต่อไปนี้เพื่อสร้างโทเคน JWT。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. ดึงข้อความ HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี

สัมผัสความสามารถของ .NET REST API โดยไม่ต้องเขียนโค้ดสักบรรทัด ลองใช้แอปออนไลน์ฟรี HTML Parser ของเราและแยกข้อความ HTML ออนไลน์

extract html text

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีการดึงข้อความจาก HTML โดยใช้ GroupDocs.Parser Cloud SDK สำหรับ .NET。 API ช่วยให้:

  • Clean text extraction
  • การลบโค้ด HTML และสคริปต์
  • การสกัดข้อมูลที่มีโครงสร้างแบบแบ่งส่วน
  • การรวมเข้ากับแอปพลิเคชัน C#
  • เวิร์กโฟลว์อัตโนมัติสำหรับชุดข้อมูล HTML ขนาดใหญ่

มันเป็นโซลูชันที่เหมาะสมสำหรับการวิเคราะห์และประมวลผล HTML ในแอปพลิเคชันระดับองค์กร


บทความที่เกี่ยวข้อง


คำถามที่พบบ่อย (FAQs)

  1. API ลบแท็กทั้งหมดโดยอัตโนมัติหรือไม่? Yes, only readable text is returned.

  2. มันสามารถประมวลผลหน้า HTML ขนาดใหญ่ได้หรือไม่? ใช่ บริการนั้นได้รับการปรับแต่งให้เหมาะสมกับข้อมูลขนาดใหญ่

  3. ฉันสามารถดึงข้อความเป็นส่วน ๆ ได้หรือไม่? ใช่ การดึงข้อมูลที่มีโครงสร้างจะส่งคืนองค์ประกอบในระดับบล็อก

  4. มันรองรับอีเมล HTML ไหม? Absolutely — extract body content directly.

  5. ฉันจะได้รับการทดลองใช้ฟรีหรือไม่? ใช่ มีการโทร API ฟรี 150 ครั้งต่อเดือน disponible.