หากคุณเคยพยายามคัดลอกข้อมูลจาก PDF ด้วยตนเอง คุณจะรู้ว่ามันยุ่งยากเพียงใด โดยเฉพาะสำหรับเอกสารที่ใหญ่หรือหลายรายการ ด้วย .NET Cloud SDK ของเรา คุณสามารถทำให้กระบวนการนี้อัตโนมัติและดึงข้อความจาก PDF ได้อย่างเป็นโปรแกรม โดยใช้เพียงไม่กี่บรรทัดของโค้ด C# เท่านั้น
ในบทแนะนำสำหรับผู้เริ่มต้นนี้ คุณจะได้เรียนรู้วิธีการดึงข้อความจากเอกสาร PDF ใน C# .NET ไม่ว่าคุณจะต้องการอ่านข้อความทั้งหมด ดึงข้อความตามช่วงหน้าที่เฉพาะ หรือแม้แต่การวิเคราะห์ข้อความจากไฟล์ที่ฝังอยู่ภายใน PDF
- PDF Parser API
- ดึงข้อความจาก PDF โดยใช้ C#
- ดึงข้อความจากช่วงหน้าด้วย C#
- ดึงข้อความจากเอกสารที่แนบมาด้วย
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET เป็น API ที่น่าทึ่งที่มีความสามารถในการจัดการไฟล์ PDF ออนไลน์ได้อย่างโปรแกรมมิ่ง ไม่เพียงแต่มีความสามารถในการสร้างหรือแปลง PDF แต่คุณยังสามารถแยกองค์ประกอบของไฟล์ PDF ได้อย่างง่ายดาย เช่น ข้อความ, รูปภาพ, แนบ, บุ๊กมาร์ก ฯลฯ ในบทความนี้ เราจะมุ่งเน้นไปที่การแยกข้อความจากไฟล์ PDF โดยใช้ .NET Cloud SDK.
🔧 ข้อกำหนดเบื้องต้น
ก่อนที่เราจะเริ่มต้นกระบวนการจัดการ PDF เราต้องมั่นใจว่ามีส่วนประกอบต่อไปนี้ติดตั้งอยู่:
- บัญชี GroupDocs Cloud – ลงทะเบียนเพื่อรับ Client ID and Secret.
- ติดตั้ง .NET 6.0 หรือสูงกว่าแล้ว
- Visual Studio หรือ IDE ไหนก็ได้ที่รองรับการพัฒนา .NET
การติดตั้ง
ติดตั้ง SDK โดยตรงจาก NuGet Package Manager:
Install-Package GroupDocs.Parser-Cloud
การแยกข้อความ PDF โดยใช้ C#
โปรดทำตามขั้นตอนด้านล่างเพื่อดึงข้อความจากไฟล์ PDF โดยใช้โปรแกรม:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
เริ่มต้นและสร้างตัวอย่างของ ParseApi
โดยการส่งวัตถุ Configuration เป็นพารามิเตอร์。
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
อ่านไฟล์ PDF จากไดรฟ์ภายในและอัปโหลดไปยังคลาวด์สโตเรจโดยเรียกใช้ UploadFile(...)
เมธอดของ UploadFileRequest คลาส.
// สำหรับตัวอย่างเพิ่มเติม กรุณาเยี่ยมชม https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: กำหนดไฟล์ใดที่จะดึงข้อความออกมา。
- TextRequest: ส่งคำขอไปยังคลาวด์.
- parseApi.Text(): คืนค่าข้อความที่ถูกดึงออกมา
ใช้ C# เพื่อดึงข้อความจากช่วงหน้าดังกล่าว
ถ้าคุณต้องการแค่ข้อความจากหน้าที่เฉพาะ (เช่น หน้า 2 ถึง 4) คุณสามารถระบุช่วงหน้าดังนี้:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
ดึงข้อความจากเอกสารที่แนบมา
Some PDFs contain attachments like Word, Excel, or another PDF inside. The SDK lets you extract text even from those embedded documents:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
ลองออนไลน์
Don`t want to code yet? Try the free online PDF text extractor . Its powered by REST API, enabling you to instantly extract text from any PDF document.

ข้อสรุป
ในคู่มือนี้ คุณได้เรียนรู้วิธีการ:
- Extract text from PDF files using C# .NET.
- อัปโหลดและวิเคราะห์เอกสารในคลาวด์。
- ดึงข้อความจากช่วงหน้า หรือจากไฟล์ที่แนบมา
API คลาวด์ของเราช่วยให้นักพัฒนาสามารถสร้างการทำงานอัตโนมัติในการดึงข้อความจาก PDF ได้อย่างง่ายดายโดยไม่ต้องจัดการกับตรรกะการแยกวิเคราะห์ PDF ระดับต่ำ