Nếu bạn đã từng cố gắng sao chép dữ liệu từ một PDF một cách thủ công, bạn sẽ biết nó có thể tẻ nhạt như thế nào—đặc biệt là đối với các tài liệu lớn hoặc nhiều tài liệu. Với .NET Cloud SDK của chúng tôi, bạn có thể tự động hóa quy trình này và trích xuất văn bản từ các file PDF một cách lập trình chỉ với vài dòng mã C#.

Trong hướng dẫn thân thiện với người mới này, bạn sẽ học cách trích xuất văn bản từ tài liệu PDF trong C# .NET, bất kể bạn muốn đọc toàn bộ văn bản, trích xuất theo khoảng trang cụ thể, hoặc thậm chí phân tích văn bản từ các tệp nhúng bên trong một PDF.

API Phân Tích PDF

GroupDocs.Parser Cloud SDK for .NET là một API tuyệt vời cung cấp khả năng thao tác các tệp PDF trực tuyến một cách lập trình. Nó không chỉ cung cấp khả năng tạo hoặc chuyển đổi PDF, mà bạn còn có thể dễ dàng trích xuất các yếu tố tệp PDF như Văn bản, Hình ảnh, Tệp đính kèm, Đánh dấu, v.v. Trong bài viết này, chúng tôi sẽ tập trung vào việc trích xuất văn bản từ tệp PDF bằng cách sử dụng .NET Cloud SDK.

🔧 Các yêu cầu trước khi bắt đầu

Trước khi chúng ta bắt đầu với quy trình xử lý PDF, chúng ta cần đảm bảo rằng các thành phần sau đã được cài đặt:

  • Một tài khoản GroupDocs Cloud – đăng ký để nhận Client ID và Secret.
  • Cài đặt .NET 6.0 hoặc cao hơn.
  • Visual Studio hoặc bất kỳ IDE nào hỗ trợ phát triển .NET.

Cài đặt

Cài đặt SDK trực tiếp từ Trình quản lý Gói NuGet:

Install-Package GroupDocs.Parser-Cloud

Trích xuất văn bản PDF bằng C#

Vui lòng làm theo các bước dưới đây để lấy văn bản từ tệp PDF theo cách lập trình:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Khởi tạo một phiên bản của ParseApi bằng cách truyền đối tượng Configuration làm tham số.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Đọc tệp PDF đầu vào từ ổ đĩa địa phương và tải lên lưu trữ đám mây bằng cách gọi phương thức UploadFile(...) của lớp UploadFileRequest.

// Để biết thêm ví dụ, vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Xác định file nào để trích xuất văn bản từ đó.
  • TextRequest: Gửi yêu cầu đến đám mây.
  • parseApi.Text(): Trả về nội dung văn bản đã được trích xuất.

Trích xuất văn bản từ phạm vi trang bằng C#

Nếu bạn chỉ cần văn bản từ các trang cụ thể (ví dụ, trang 2 đến 4), bạn có thể chỉ định phạm vi trang như sau:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Trích xuất văn bản từ các tài liệu đính kèm

Một số PDF chứa các tệp đính kèm như Word, Excel hoặc một PDF khác bên trong. SDK cho phép bạn trích xuất văn bản ngay cả từ những tài liệu nhúng đó:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Thử Online

Không muốn lập trình ngay bây giờ? Hãy thử trình trích xuất văn bản PDF trực tuyến miễn phí. Nó được cung cấp bởi REST API, cho phép bạn nhanh chóng trích xuất văn bản từ bất kỳ tài liệu PDF nào.

so sánh tệp excel trực tuyến

Kết luận

Trong hướng dẫn này, bạn đã học cách:

  • Trích xuất văn bản từ tệp PDF bằng C# .NET.
  • Tải lên và phân tích tài liệu trên đám mây.
  • Lấy văn bản theo khoảng trang hoặc từ các tệp đính kèm.

API đám mây của chúng tôi giúp các nhà phát triển tự động hóa việc trích xuất văn bản PDF mà không cần phải xử lý các logic phân tích PDF ở mức thấp.

Liên kết hữu ích

Xem thêm