ดึงข้อความจาก HTML | ตัวแปรข้อความ HTML

ทำไมต้องแยกข้อความจาก HTML?
API การดึงข้อความจาก HTML
Convert HTML to TXT using C#
ดึงข้อความจาก HTML ผ่าน cURL
ลองใช้เครื่องมือดึงข้อความ HTML ออนไลน์ฟรี

ทำไมต้องแยกข้อความจาก HTML?

HTML ไฟล์ประกอบด้วยมาร์กอัป, สไตล์, สคริปต์, และข้อมูลเมตาอื่นๆ การดึงข้อความที่ชัดเจนเป็นสิ่งสำคัญสำหรับ:

การถ่ายโอนเนื้อหา
การดึงข้อมูล
การจัดทำดัชนี & การค้นหาข้อความเต็มรูปแบบ
การเตรียมข้อมูลการฝึกอบรมสำหรับโมเดล AI/ML
การวิเคราะห์เอกสารเวิร์กโฟลว์
การประมวลผลอีเมลที่ใช้ HTML

SDK คลาวด์ .NET ของเราช่วยให้คุณทำให้กระบวนการทั้งหมดนี้เป็นอัตโนมัติด้วย API ที่เรียบง่ายและทรงพลัง

API การดึงเนื้อหา HTML

GroupDocs.Parser Cloud SDK สำหรับ .NET ช่วยให้สามารถดึงข้อมูลจาก:

Visible text from HTML
เนื้อหาที่มีโครงสร้าง (หมวดหมู่, ย่อหน้า, รายการ)
UTF‑8 encoded content
Text from HTML email bodies
Clean text without scripts, styles, and markup

นอกจากความสามารถของ API ที่กล่าวถึงข้างต้นแล้ว มันยังมีฟีเจอร์อื่น ๆ เช่น:

Removes all HTML tags
Extracts readable plain text
รองรับไฟล์ HTML ขนาดใหญ่
Provides text block segmentation
ทำงานกับการจัดเก็บข้อมูลบนคลาวด์

ติดตั้งผ่าน NuGet

dotnet add package GroupDocs.Parser-Cloud --version 25.7.0

คุณยังต้องสร้างบัญชีใน GroupDocs Cloud dashboard เพื่อให้คุณสามารถขอรับ Client ID & Client Secret (จำเป็นต้องใช้สำหรับการใช้ API)

แปลง HTML เป็น TXT โดยใช้ C#

นี่คือตัวอย่างที่สมบูรณ์ซึ่งแสดงวิธีการดึงข้อความจากไฟล์ HTML โดยใช้ SDK.

ขั้นตอนที่ 1 — เริ่มต้น API:

var config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(config);
var fileApi = new FileApi(config);

ขั้นตอนที่ 2 — ตั้งค่า HTML Input:

var fileInfo = new FileInfo { FilePath = "input.html" };
var options = new TextOptions { FileInfo = fileInfo };
var request = new TextRequest(options);

ขั้นตอนที่ 3 — ดึงข้อความ:

var response = parserApi.Text(request);
Console.WriteLine(response.Text);

ขั้นตอนที่ 4 — บันทึกผลลัพธ์:

File.WriteAllText("html-output.txt", response.Text);

ar configuration = new GroupDocs.Parser.Cloud.Sdk.Client.Configuration("XXXXX-XXXXXXX","XXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// โหลดไฟล์ HTML จากไดรฟ์ภายในเครื่อง
using (var fileStream = System.IO.File.OpenRead("sample.html"))
{
    // อัปโหลด HTML ไปยังคลาวด์สโตเรจ
    var uploadRequest = new Requests.UploadFileRequest("input.html", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.html" }
};

var request = new TextRequest(options);
// extract text from HTML
var response = parseApi.Text(request);

// print the extract content in console
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text); 

// ในกรณีที่เป็นไปได้ คุณอาจพิจารณาเขียนเนื้อหาไปยังไฟล์ข้อความ
File.WriteAllText("html-output.txt", response.Text);

Extract Text from HTML via cURL

ทางเลือกหนึ่ง หากคุณต้องการใช้การดำเนินการในบรรทัดคำสั่งเพื่อดึงข้อความจากไฟล์ HTML คุณยังสามารถใช้ GroupDocs.Parser Cloud กับคำสั่ง cURL ได้อีกด้วย

1. สร้าง Access Token:

ข้อกำหนดเบื้องต้นในวิธีการนี้คือการสร้างโทเคนการเข้าถึง JWT โดยใช้ข้อมูลรับรองของผู้ใช้ กรุณาเรียกใช้คำสั่งต่อไปนี้เพื่อสร้างโทเคน JWT。

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

2. ดึงข้อความ HTML:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {JWT_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{  \"FileInfo\": {    \"FilePath\": \"sample.html\",    \"StorageName\": \"internal\"  }}"

ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี

สัมผัสความสามารถของ .NET REST API โดยไม่ต้องเขียนโค้ดสักบรรทัด ลองใช้แอปออนไลน์ฟรี HTML Parser ของเราและแยกข้อความ HTML ออนไลน์

บทสรุป

ในบทความนี้ คุณได้เรียนรู้วิธีการดึงข้อความจาก HTML โดยใช้ GroupDocs.Parser Cloud SDK สำหรับ .NET。 API ช่วยให้:

Clean text extraction
การลบโค้ด HTML และสคริปต์
การสกัดข้อมูลที่มีโครงสร้างแบบแบ่งส่วน
การรวมเข้ากับแอปพลิเคชัน C#
เวิร์กโฟลว์อัตโนมัติสำหรับชุดข้อมูล HTML ขนาดใหญ่

มันเป็นโซลูชันที่เหมาะสมสำหรับการวิเคราะห์และประมวลผล HTML ในแอปพลิเคชันระดับองค์กร

คำถามที่พบบ่อย (FAQs)

API ลบแท็กทั้งหมดโดยอัตโนมัติหรือไม่? Yes, only readable text is returned.
มันสามารถประมวลผลหน้า HTML ขนาดใหญ่ได้หรือไม่? ใช่ บริการนั้นได้รับการปรับแต่งให้เหมาะสมกับข้อมูลขนาดใหญ่
ฉันสามารถดึงข้อความเป็นส่วน ๆ ได้หรือไม่? ใช่ การดึงข้อมูลที่มีโครงสร้างจะส่งคืนองค์ประกอบในระดับบล็อก
มันรองรับอีเมล HTML ไหม? Absolutely — extract body content directly.
ฉันจะได้รับการทดลองใช้ฟรีหรือไม่? ใช่ มีการโทร API ฟรี 150 ครั้งต่อเดือน disponible.

ดึงข้อความจาก HTML ใน C# .NET | API การดึงข้อความ HTML ที่ดีที่สุด

ทำไมต้องแยกข้อความจาก HTML?

API การดึงเนื้อหา HTML

ติดตั้งผ่าน NuGet

แปลง HTML เป็น TXT โดยใช้ C#

ขั้นตอนที่ 1 — เริ่มต้น API:

ขั้นตอนที่ 2 — ตั้งค่า HTML Input:

ขั้นตอนที่ 3 — ดึงข้อความ:

ขั้นตอนที่ 4 — บันทึกผลลัพธ์:

Extract Text from HTML via cURL

1. สร้าง Access Token:

2. ดึงข้อความ HTML:

ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี

บทสรุป

บทความที่เกี่ยวข้อง

คำถามที่พบบ่อย (FAQs)

ทำไมต้องแยกข้อความจาก HTML?#

API การดึงเนื้อหา HTML#

ติดตั้งผ่าน NuGet#

แปลง HTML เป็น TXT โดยใช้ C##

ขั้นตอนที่ 1 — เริ่มต้น API:#

ขั้นตอนที่ 2 — ตั้งค่า HTML Input:#

ขั้นตอนที่ 3 — ดึงข้อความ:#

ขั้นตอนที่ 4 — บันทึกผลลัพธ์:#

Extract Text from HTML via cURL#

1. สร้าง Access Token:#

2. ดึงข้อความ HTML:#

ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี#

บทสรุป#

บทความที่เกี่ยวข้อง#

คำถามที่พบบ่อย (FAQs)#

ทำไมต้องแยกข้อความจาก HTML?

API การดึงเนื้อหา HTML

ติดตั้งผ่าน NuGet

แปลง HTML เป็น TXT โดยใช้ C#

ขั้นตอนที่ 1 — เริ่มต้น API:

ขั้นตอนที่ 2 — ตั้งค่า HTML Input:

ขั้นตอนที่ 3 — ดึงข้อความ:

ขั้นตอนที่ 4 — บันทึกผลลัพธ์:

Extract Text from HTML via cURL

1. สร้าง Access Token:

2. ดึงข้อความ HTML:

ลองใช้ตัวดึงข้อความ HTML ออนไลน์ฟรี

บทสรุป

บทความที่เกี่ยวข้อง

คำถามที่พบบ่อย (FAQs)