Що таке класифікація тексту?
Класифікація тексту – це процес призначення тегів або категорій тексту відповідно до його вмісту з широкими застосуваннями, такими як аналіз настроїв, позначення тем, виявлення спаму та виявлення намірів.
Неструктуровані дані у вигляді необробленого тексту всюди: електронні листи, чати, веб-сторінки, соціальні мережі, квитки в службу підтримки, відповіді на опитування тощо. Текст може бути надзвичайно багатим джерелом інформації, але вилучення з нього розуміння може бути складним і трудомістким через його неструктуровану природу. Компанії звертаються до класифікації тексту для швидкого та економічного структурування тексту, щоб покращити процес прийняття рішень і автоматизувати процеси.
Що таке таксономія?
Таксономія - це практика та наука класифікації. Слово також використовується як таксономічна схема. Таксономія - це особлива класифікація. У ширшому, загальному сенсі воно може стосуватися класифікації речей або понять, а також принципів, що лежать в основі такої класифікації.
GroupDocs.Classification Cloud API
API GroupDocs.Classification Cloud отримує вихідні дані класифікації необробленого тексту для таксономії IAB-2 або таксономії документів. Він повертає об’єкт, який містить інформацію про найкращий клас і його ймовірність, а також про ймовірності інших класів.
Приклад таксономії IAB-2
GroupDocs.Classification Cloud API підтримує схему таксономії IAB-2. Нижче наведено деякі приклади таксономії:
- “Автомобільний”,
- «Книги\і\література»,
- «Бізнес\та\Фінанси»,
- “Кар’єра”,
- “Освіта”,
- «Події\та\визначні місця»,
- «Сім’я\і\стосунки»,
- «Образотворче\мистецтво»,
- «Їжа&\Напої»,
- ‘Здорове життя’,
- «Хобі&\Інтереси»,
- «Дім&\Сад»,
- “Медицина\Здоров’я”,
- “Фільми”,
- «Музика\та\аудіо»,
- «Новини\та\політика»,
- “Особисті\фінанси”
- тощо
Запит cURL
### Upload document to default storage
curl -X POST "https://api.groupdocs.cloud/v2.0/viewer/storage/file/viewerdocs%2Fthree-layouts.dwf?storageName=MyStorage"
-H "accept: application/json"
-H "authorization: Bearer [Access_Token]"
-H "Content-Type: multipart/form-data"
-T C:/Temp/three-layouts.dwf
Відповідь
{
"bestClassName": "Healthy_Living",
"bestClassProbability": 53.77,
"bestResults": [
{
"className": "Healthy_Living",
"classProbability": 53.77
},
{
"className": "Medical_Health",
"classProbability": 38.27
},
{
"className": "Pets",
"classProbability": 1.98
}
],
"code": 200,
"status": "OK"
}
Приклад .NET
//ЗАВДАННЯ: Отримайте AppSID і AppKey на https://dashboard.groupdocs.cloud (потрібна безкоштовна реєстрація).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Document_from_Storage
{
public static void Run()
{
//ЗАВДАННЯ: Отримайте AppSID і AppKey на https://dashboard.groupdocs.cloud/ (потрібна безкоштовна реєстрація).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest()
{
Document = new FileInfo()
{
Name = "one-page.docx",
Folder = ""
},
},
bestClassesCount: "3");
// Отримати результати класифікації
ClassificationResponse response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Приклад таксономії документів
Таксономія документів включає такий список у GroupDocs.Classification Cloud API:
- ADVE - реклама, брошури.
- Електронна пошта
- Форма
- лист
- Пам’ятна записка - меморандуми.
- Новини - статті, в тому числі новини.
- рахунок-фактура
- звіт
- Резюме
- Scientific – наукові праці.
- Інше - інші класи документів або випадки, у яких класифікатор не впевнений.
Запит cURL
curl -v "http://api.groupdocs.com/v/v1/classification/classify?bestClassesCount=3&taxonomy=documents"
-H "content-type: application/json"
-X POST -d '{ "Document": {"Folder": "words/docx","Name": "four-pages.docx" } }'
Відповідь
{
"bestClassName": "Other",
"bestClassProbability": 36.8,
"bestResults": [
{
"className": "Other",
"classProbability": 36.8
},
{
"className": "ADVE",
"classProbability": 14.72
},
{
"className": "News",
"classProbability": 12.77
}
],
"code": 200,
"status": "OK"
}
Приклад .NET
//ЗАВДАННЯ: Отримайте AppSID і AppKey на https://dashboard.groupdocs.cloud (потрібна безкоштовна реєстрація).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Raw_Text
{
public static void Run()
{
//ЗАВДАННЯ: Отримайте AppSID і AppKey на https://dashboard.groupdocs.cloud/ (потрібна безкоштовна реєстрація).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest() { Description = "Try Text classification using GroupDocs.Classification Cloud API" }, "3");
// Отримати результати класифікації
var response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Почніть безкоштовну пробну версію сьогодні
Розпочніть безкоштовну пробну версію сьогодні – все, що вам потрібно, це зареєструватися в хмарній службі GroupDocs. Зареєструвавшись, ви готові спробувати потужні функції обробки файлів, які пропонує GroupDocs Cloud.