Phân loại tài liệu và văn bản thô bằng C#

Phân loại văn bản hoặc phân loại văn bản là quá trình gán thẻ hoặc phân loại văn bản thành các nhóm có tổ chức. Là nhà phát triển C#, bạn có thể dễ dàng phân loại văn bản thô hoặc tài liệu theo chương trình trên đám mây. Trong bài viết này, bạn sẽ tìm hiểu cách phân loại tài liệu và văn bản thô bằng API REST trong C#.

Các chủ đề sau được thảo luận/đề cập trong bài viết này:

Phân loại tài liệu REST API và .NET SDK

Để phân loại văn bản hoặc tài liệu, tôi sẽ sử dụng API .NET SDK của GroupDocs.Classification Cloud. Nó cho phép bạn phân loại văn bản thô cũng như tài liệu của mình thành các danh mục được xác định trước. SDK hỗ trợ nhiều loại phân loại, chẳng hạn như IAB-2, phân loại Tài liệu & Tình cảm. Thông tin phân loại hiển thị lớp tốt nhất với điểm xác suất của nó.

Bạn có thể cài đặt GroupDocs.Classification vào dự án Visual Studio của mình từ Trình quản lý gói NuGet hoặc sử dụng lệnh sau trong bảng điều khiển Trình quản lý gói:

Install-Package GroupDocs.Classification-Cloud

Vui lòng lấy ID khách hàng và Bí mật khách hàng của bạn từ bảng điều khiển trước khi bạn bắt đầu làm theo các bước và ví dụ về mã có sẵn. Khi bạn có ID khách hàng và Bí mật, hãy thêm mã như hình bên dưới:

var configuration = new Configuration();
configuration.ClientId = "659fe7da-715b-4744-a0f7-cf469a392b73";
configuration.ClientSecret = "b377c36cfa28fa69960ebac6b6e36421";

Phân loại tài liệu Word bằng API REST trong C#

Bạn có thể phân loại tài liệu Word của mình bằng cách thực hiện theo các bước đơn giản dưới đây:

Tải lên tài liệu

Đầu tiên, tải tệp DOCX lên Đám mây bằng cách sử dụng mẫu mã được cung cấp bên dưới:

// khởi tạo API
var apiInstance = new FileApi(configuration);

// Mở tệp trong IOStream từ cục bộ/đĩa.
var fileStream = File.Open("C:\\Files\\sample.docx", FileMode.Open);

// Tạo yêu cầu tải tệp lên
var request = new UploadFileRequest("sample.docx", fileStream, "");

var response = apiInstance.UploadFile(request);

Do đó, tệp DOCX đã tải lên sẽ có trong phần tệp trên trang tổng quan của bạn trên đám mây.

Phân loại tài liệu Word bằng C#

Bạn có thể phân loại tài liệu Word theo chương trình bằng cách thực hiện theo các bước dưới đây.

  • Tạo một phiên bản của ClassApi
  • Tạo một thể hiện của BaseRequest
  • Đặt đường dẫn tệp DOCX và gán nó cho tài liệu BaseRequest
  • Tạo ClassifyRequest với BaseRequest
  • Đặt BaseClassesCount
  • Nhận Phản hồi phân loại bằng cách gọi phương thức ClassificationApi.Classify()

Mẫu mã sau đây cho biết cách phân loại tài liệu Word bằng API REST.

// khởi tạo API
var apiInstance = new ClassificationApi(configuration);

// Tạo yêu cầu cơ sở
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Tạo yêu cầu phân loại
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Nhận kết quả phân loại
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
Phân loại tài liệu Word bằng API REST trong C#

Phân loại tài liệu Word bằng API REST trong C#

Phân loại tài liệu Word để phân loại bằng C#

Bạn có thể phân loại tài liệu Word để phân loại theo chương trình bằng cách thực hiện theo các bước dưới đây.

  • Tạo một phiên bản của ClassApi
  • Tạo một thể hiện của BaseRequest
  • Đặt đường dẫn tệp DOCX và gán nó cho tài liệu BaseRequest
  • Tạo ClassifyRequest với BaseRequest
  • Đặt BaseClassesCount
  • Đặt phân loại
  • Nhận Phản hồi phân loại bằng cách gọi phương thức ClassificationApi.Classify()

Mẫu mã sau đây cho biết cách phân loại tài liệu Word cho phân loại “tài liệu” bằng cách sử dụng API REST. Vui lòng làm theo các bước được đề cập trước đó để tải tệp lên.

// khởi tạo API
var apiInstance = new ClassificationApi(configuration);

// Tạo yêu cầu cơ sở
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Tạo yêu cầu phân loại
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";
request.Taxonomy = "documents";

// Nhận kết quả phân loại
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: ADVE
ClassProbability: 77.17
--------------------------------
ClassName: Resume
ClassProbability: 22.83
--------------------------------
ClassName: Scientific
ClassProbability: 0.01
--------------------------------

Bạn có thể sử dụng những điều sau đây làm phân loại để phân loại tài liệu:

  • mặc định
  • iab2
  • các tài liệu
  • tình cảm
  • tình cảm3

Bạn có thể đọc thêm về cách phân loại tham số yêu cầu trong phần “Phân loại tham số yêu cầu”.

Phân loại văn bản thô bằng API REST trong C#

Bạn có thể phân loại bất kỳ văn bản thô nào theo chương trình bằng cách thực hiện theo các bước dưới đây.

  • Tạo một phiên bản của ClassApi
  • Tạo ví dụ BaseRequest
  • Cung cấp văn bản thô cho mô tả BaseRequest
  • Tạo ClassifyRequest với BaseRequest
  • Đặt BaseClassesCount
  • Nhận Phản hồi phân loại bằng cách gọi phương thức ClassificationApi.Classify()

Mẫu mã sau đây cho biết cách phân loại văn bản thô bằng API REST.

// khởi tạo API
var apiInstance = new ClassificationApi(configuration);

// Tạo yêu cầu cơ sở
BaseRequest baseRequest = new BaseRequest();
baseRequest.Description = "We support some of the most popular file formats in business, "
    + "including Microsoft Word documents, Excel spreadsheets, PowerPoint presentations, "
    + "Outlook emails and archives, Visio diagrams, Project files, and Adobe Acrobat PDF documents..";

// Tạo yêu cầu phân loại
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Nhận kết quả phân loại
var response = apiInstance.Classify(request);
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: Hobbies_&_Interests
ClassProbability: 43.02
--------------------------------
ClassName: Business_and_Finance
ClassProbability: 26.64
--------------------------------
ClassName: Technology_&_Computing
ClassProbability: 18.25
--------------------------------

Thử trực tuyến

Vui lòng thử công cụ phân loại trực tuyến miễn phí sau đây, được phát triển bằng cách sử dụng API ở trên. https://products.groupdocs.app/classification[/](https:/ /products.groupdocs.app/splitter/pdf)

Phần kết luận

Trong bài viết này, bạn đã học cách phân loại tài liệu Word và văn bản thô trên đám mây bằng C#. Bạn cũng đã học cách tải tệp DOCX lên đám mây theo cách lập trình. Bạn có thể tìm hiểu thêm về GroupDocs.Classification Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham chiếu API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Trong trường hợp có bất kỳ sự mơ hồ nào, vui lòng liên hệ với chúng tôi trên diễn đàn.

Xem thêm