Что такое классификация текстов?
Классификация текста — это процесс назначения тегов или категорий тексту в соответствии с его содержанием с широкими приложениями, такими как анализ настроений, маркировка тем, обнаружение спама и обнаружение намерений.
Неструктурированные данные в виде необработанного текста повсюду: электронные письма, чаты, веб-страницы, социальные сети, заявки в службу поддержки, ответы на опросы и многое другое. Текст может быть чрезвычайно богатым источником информации, но извлечение из него информации может быть трудным и трудоемким из-за его неструктурированного характера. Предприятия обращаются к классификации текста для быстрого и экономичного структурирования текста, чтобы улучшить процесс принятия решений и автоматизировать процессы.
Что такое Таксономия?
Таксономия — это практика и наука классификации. Слово также используется в качестве таксономической схемы. Таксономия – это особая классификация. В более широком, более общем смысле это может относиться к классификации вещей или понятий, а также к принципам, лежащим в основе такой классификации.
Облачный API GroupDocs.Classification
Облачный API GroupDocs.Classification извлекает выходные данные классификации необработанного текста для таксономии IAB-2 или таксономии документов. Он возвращает объект, содержащий информацию о лучшем классе и его вероятности, а также о вероятностях других классов.
Пример таксономии IAB-2
GroupDocs.Classification Cloud API поддерживает схему таксономии IAB-2. Некоторые примеры таксономии перечислены ниже:
- ‘Автомобильный’,
- ‘Книги\и\Литература’,
- ‘Бизнес\и\Финансы’,
- ‘Карьера’,
- ‘Образование’,
- ‘События\и\Достопримечательности’,
- ‘Семья\и\отношения’,
- ‘Изобразительное искусство’,
- ‘Еда, напиток’,
- ‘Здоровая жизнь’,
- ‘Хобби интересы’,
- ‘Дом и Сад’,
- ‘Медицинское здоровье’,
- ‘Кино’,
- ‘Музыка\и\Аудио’,
- ‘Новости\и\Политика’,
- ‘Личные финансы’
- и т. д.
cURL-запрос
### Upload document to default storage
curl -X POST "https://api.groupdocs.cloud/v2.0/viewer/storage/file/viewerdocs%2Fthree-layouts.dwf?storageName=MyStorage"
-H "accept: application/json"
-H "authorization: Bearer [Access_Token]"
-H "Content-Type: multipart/form-data"
-T C:/Temp/three-layouts.dwf
Ответ
{
"bestClassName": "Healthy_Living",
"bestClassProbability": 53.77,
"bestResults": [
{
"className": "Healthy_Living",
"classProbability": 53.77
},
{
"className": "Medical_Health",
"classProbability": 38.27
},
{
"className": "Pets",
"classProbability": 1.98
}
],
"code": 200,
"status": "OK"
}
Пример .NET
//TODO: Получите свой AppSID и AppKey на https://dashboard.groupdocs.cloud (требуется бесплатная регистрация).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Document_from_Storage
{
public static void Run()
{
//TODO: Получите свой AppSID и AppKey на https://dashboard.groupdocs.cloud/ (требуется бесплатная регистрация).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest()
{
Document = new FileInfo()
{
Name = "one-page.docx",
Folder = ""
},
},
bestClassesCount: "3");
// Получить результаты классификации
ClassificationResponse response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Пример таксономии документов
Таксономия документов включает следующий список в GroupDocs.Classification Cloud API:
- ADVE - реклама, брошюры.
- Электронная почта
- Форма
- Письмо
- Памятка - меморандумы.
- Новости - статьи, в том числе новостные.
- Счет
- Отчет
- Резюме
- Научно-научные работы.
- Другое - другие классы документов или случаи, в которых классификатор не уверен.
cURL-запрос
curl -v "http://api.groupdocs.com/v/v1/classification/classify?bestClassesCount=3&taxonomy=documents"
-H "content-type: application/json"
-X POST -d '{ "Document": {"Folder": "words/docx","Name": "four-pages.docx" } }'
Ответ
{
"bestClassName": "Other",
"bestClassProbability": 36.8,
"bestResults": [
{
"className": "Other",
"classProbability": 36.8
},
{
"className": "ADVE",
"classProbability": 14.72
},
{
"className": "News",
"classProbability": 12.77
}
],
"code": 200,
"status": "OK"
}
Пример .NET
//TODO: Получите свой AppSID и AppKey на https://dashboard.groupdocs.cloud (требуется бесплатная регистрация).
using System;
using System.Diagnostics;
using GroupDocs.Classification.Cloud.Sdk.Api;
using GroupDocs.Classification.Cloud.Sdk.Model;
using GroupDocs.Classification.Cloud.Sdk.Model.Requests;
namespace GroupDocs.Classification.Cloud.Sdk.Examples
{
class Classification_CSharp_Classify_Raw_Text
{
public static void Run()
{
//TODO: Получите свой AppSID и AppKey на https://dashboard.groupdocs.cloud/ (требуется бесплатная регистрация).
var configuration = new Configuration
{
AppSid = "XXX-XXXXXXX-XXXX",
AppKey = "XXXXXXXXXXXXX"
};
var apiInstance = new ClassificationApi(configuration);
try
{
var request = new ClassifyRequest(new BaseRequest() { Description = "Try Text classification using GroupDocs.Classification Cloud API" }, "3");
// Получить результаты классификации
var response = apiInstance.Classify(request);
Console.WriteLine(response.ToString());
}
catch (Exception e)
{
Console.WriteLine("Exception when calling ClassificationApi.Classify: " + e.Message);
}
}
}
}
Начните бесплатную пробную версию сегодня
Начните бесплатную пробную версию сегодня — все, что вам нужно, это зарегистрироваться в облачной службе GroupDocs. После регистрации вы готовы попробовать мощные функции обработки файлов, предлагаемые GroupDocs Cloud.