Phân loại văn bản là gì?
Phân loại văn bản là quá trình gán các thẻ hoặc danh mục cho văn bản theo nội dung của nó với các ứng dụng rộng rãi như phân tích tình cảm, gắn nhãn chủ đề, phát hiện thư rác và phát hiện ý định.
Dữ liệu phi cấu trúc ở dạng văn bản thô có ở khắp mọi nơi: email, cuộc trò chuyện, trang web, phương tiện truyền thông xã hội, vé hỗ trợ, phản hồi khảo sát, v.v. Văn bản có thể là một nguồn thông tin vô cùng phong phú, nhưng việc trích xuất những hiểu biết sâu sắc từ nó có thể khó khăn và tốn thời gian do tính chất phi cấu trúc của nó. Các doanh nghiệp đang chuyển sang phân loại văn bản để cấu trúc văn bản một cách nhanh chóng và tiết kiệm chi phí nhằm tăng cường quá trình ra quyết định và tự động hóa.
Phân loại học là gì?
Phân loại học là thực hành và khoa học phân loại. Từ này cũng được sử dụng như một sơ đồ phân loại. Phân loại học là một phân loại cụ thể. Theo nghĩa rộng hơn, tổng quát hơn, nó có thể đề cập đến sự phân loại các sự vật hoặc khái niệm, cũng như các nguyên tắc làm cơ sở cho sự phân loại đó.
API đám mây GroupDocs.Classification
GroupDocs.Classification Cloud API truy xuất đầu ra phân loại văn bản thô cho phân loại IAB-2 hoặc phân loại tài liệu. Nó trả về một đối tượng chứa thông tin về lớp tốt nhất và xác suất của nó cũng như về xác suất của các lớp khác.
Ví dụ về phân loại IAB-2
GroupDocs.Classification Cloud API hỗ trợ sơ đồ phân loại IAB-2, một số ví dụ về phân loại được liệt kê bên dưới:
- ‘ô tô’,
- ‘Sách\và\Văn học’,
- ‘Kinh doanh và tài chính’,
- ‘Nghề nghiệp’,
- ‘Giáo dục’,
- ‘Sự kiện\và\Điểm du lịch’,
- ‘Gia đình\và\Mối quan hệ’,
- ‘Mỹ nghệ’,
- ‘Đồ ăn thức uống’,
- ‘Lối sống lành mạnh’,
- ‘Sở thích&\Sở thích’,
- ‘Nhà và vườn’,
- ‘Y tế\Sức khỏe’,
- ‘Phim’,
- ‘Âm nhạc\và\Âm thanh’,
- ‘Tin tức\và\Chính trị’,
- ‘Cá nhân\Tài chính’
- vân vân.
Yêu cầu cURL
### Upload document to default storage
curl -X POST "https://api.groupdocs.cloud/v2.0/viewer/storage/file/viewerdocs%2Fthree-layouts.dwf?storageName=MyStorage"
-H "accept: application/json"
-H "authorization: Bearer [Access_Token]"
-H "Content-Type: multipart/form-data"
-T C:/Temp/three-layouts.dwf
Phản ứng
{
"bestClassName": "Healthy_Living",
"bestClassProbability": 53.77,
"bestResults": [
{
"className": "Healthy_Living",
"classProbability": 53.77
},
{
"className": "Medical_Health",
"classProbability": 38.27
},
{
"className": "Pets",
"classProbability": 1.98
}
],
"code": 200,
"status": "OK"
}
Ví dụ .NET
//VIỆC CẦN LÀM: Nhận AppSID và AppKey của bạn tại https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Document_from_Storage
{
public static void Run()
{
//VIỆC CẦN LÀM: Nhận AppSID và AppKey của bạn tại https://dashboard.groupdocs.cloud/ (yêu cầu đăng ký miễn phí).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest()
{
Document = new FileInfo()
{
Name = "one-page.docx",
Folder = ""
},
},
bestClassesCount: "3");
// Nhận kết quả phân loại
ClassificationResponse response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Tài liệu Ví dụ về phân loại
Phân loại tài liệu bao gồm danh sách sau trong GroupDocs.Classification Cloud API:
- ADVE - quảng cáo, tài liệu quảng cáo.
- Hình thức
- Thư
- Memo - biên bản ghi nhớ.
- Tin - bài, bao gồm tin bài.
- Hóa đơn
- Báo cáo
- Bản tóm tắt
- Khoa học - bài báo khoa học.
- Khác - các lớp khác của tài liệu hoặc trường hợp mà bộ phân loại không chắc chắn.
Yêu cầu cURL
curl -v "http://api.groupdocs.com/v/v1/classification/classify?bestClassesCount=3&taxonomy=documents"
-H "content-type: application/json"
-X POST -d '{ "Document": {"Folder": "words/docx","Name": "four-pages.docx" } }'
Phản ứng
{
"bestClassName": "Other",
"bestClassProbability": 36.8,
"bestResults": [
{
"className": "Other",
"classProbability": 36.8
},
{
"className": "ADVE",
"classProbability": 14.72
},
{
"className": "News",
"classProbability": 12.77
}
],
"code": 200,
"status": "OK"
}
Ví dụ .NET
//VIỆC CẦN LÀM: Nhận AppSID và AppKey của bạn tại https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Raw_Text
{
public static void Run()
{
//VIỆC CẦN LÀM: Nhận AppSID và AppKey của bạn tại https://dashboard.groupdocs.cloud/ (yêu cầu đăng ký miễn phí).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest() { Description = "Try Text classification using GroupDocs.Classification Cloud API" }, "3");
// Nhận kết quả phân loại
var response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Bắt đầu dùng thử miễn phí ngay hôm nay
Bắt đầu dùng thử miễn phí ngay hôm nay – tất cả những gì bạn cần là đăng ký dịch vụ Đám mây GroupDocs. Sau khi đăng ký, bạn đã sẵn sàng dùng thử các tính năng xử lý tệp mạnh mẽ do GroupDocs Cloud cung cấp.