หากคุณเคยพยายามคัดลอกข้อมูลจาก PDF ด้วยตนเอง คุณจะรู้ว่ามันยุ่งยากเพียงใด โดยเฉพาะสำหรับเอกสารที่ใหญ่หรือหลายรายการ ด้วย .NET Cloud SDK ของเรา คุณสามารถทำให้กระบวนการนี้อัตโนมัติและดึงข้อความจาก PDF ได้อย่างเป็นโปรแกรม โดยใช้เพียงไม่กี่บรรทัดของโค้ด C# เท่านั้น

ในบทแนะนำสำหรับผู้เริ่มต้นนี้ คุณจะได้เรียนรู้วิธีการดึงข้อความจากเอกสาร PDF ใน C# .NET ไม่ว่าคุณจะต้องการอ่านข้อความทั้งหมด ดึงข้อความตามช่วงหน้าที่เฉพาะ หรือแม้แต่การวิเคราะห์ข้อความจากไฟล์ที่ฝังอยู่ภายใน PDF

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET เป็น API ที่น่าทึ่งที่มีความสามารถในการจัดการไฟล์ PDF ออนไลน์ได้อย่างโปรแกรมมิ่ง ไม่เพียงแต่มีความสามารถในการสร้างหรือแปลง PDF แต่คุณยังสามารถแยกองค์ประกอบของไฟล์ PDF ได้อย่างง่ายดาย เช่น ข้อความ, รูปภาพ, แนบ, บุ๊กมาร์ก ฯลฯ ในบทความนี้ เราจะมุ่งเน้นไปที่การแยกข้อความจากไฟล์ PDF โดยใช้ .NET Cloud SDK.

🔧 ข้อกำหนดเบื้องต้น

ก่อนที่เราจะเริ่มต้นกระบวนการจัดการ PDF เราต้องมั่นใจว่ามีส่วนประกอบต่อไปนี้ติดตั้งอยู่:

  • บัญชี GroupDocs Cloud – ลงทะเบียนเพื่อรับ Client ID and Secret.
  • ติดตั้ง .NET 6.0 หรือสูงกว่าแล้ว
  • Visual Studio หรือ IDE ไหนก็ได้ที่รองรับการพัฒนา .NET

การติดตั้ง

ติดตั้ง SDK โดยตรงจาก NuGet Package Manager:

Install-Package GroupDocs.Parser-Cloud

การแยกข้อความ PDF โดยใช้ C#

โปรดทำตามขั้นตอนด้านล่างเพื่อดึงข้อความจากไฟล์ PDF โดยใช้โปรแกรม:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

เริ่มต้นและสร้างตัวอย่างของ ParseApi โดยการส่งวัตถุ Configuration เป็นพารามิเตอร์。

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

อ่านไฟล์ PDF จากไดรฟ์ภายในและอัปโหลดไปยังคลาวด์สโตเรจโดยเรียกใช้ UploadFile(...) เมธอดของ UploadFileRequest คลาส.

// สำหรับตัวอย่างเพิ่มเติม กรุณาเยี่ยมชม https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: กำหนดไฟล์ใดที่จะดึงข้อความออกมา。
  • TextRequest: ส่งคำขอไปยังคลาวด์.
  • parseApi.Text(): คืนค่าข้อความที่ถูกดึงออกมา

ใช้ C# เพื่อดึงข้อความจากช่วงหน้าดังกล่าว

ถ้าคุณต้องการแค่ข้อความจากหน้าที่เฉพาะ (เช่น หน้า 2 ถึง 4) คุณสามารถระบุช่วงหน้าดังนี้:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

ดึงข้อความจากเอกสารที่แนบมา

Some PDFs contain attachments like Word, Excel, or another PDF inside. The SDK lets you extract text even from those embedded documents:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

ลองออนไลน์

Don`t want to code yet? Try the free online PDF text extractor . Its powered by REST API, enabling you to instantly extract text from any PDF document.

เปรียบเทียบไฟล์ excel ออนไลน์

ข้อสรุป

ในคู่มือนี้ คุณได้เรียนรู้วิธีการ:

  • Extract text from PDF files using C# .NET.
  • อัปโหลดและวิเคราะห์เอกสารในคลาวด์。
  • ดึงข้อความจากช่วงหน้า หรือจากไฟล์ที่แนบมา

API คลาวด์ของเราช่วยให้นักพัฒนาสามารถสร้างการทำงานอัตโนมัติในการดึงข้อความจาก PDF ได้อย่างง่ายดายโดยไม่ต้องจัดการกับตรรกะการแยกวิเคราะห์ PDF ระดับต่ำ

ลิงก์ที่เป็นประโยชน์

ดูเพิ่มเติม