Класифікуйте документи та необроблений текст за допомогою C#

Класифікація тексту або категоризація тексту — це процес призначення тегів або класифікації тексту в організовані групи. Як розробник C#, ви можете легко класифікувати необроблений текст або документи програмними засобами в хмарі. У цій статті ви дізнаєтесь, як класифікувати документи та необроблений текст за допомогою REST API у C#.

У цій статті обговорюються/розкриваються такі теми:

Класифікація документів REST API та .NET SDK

Для класифікації тексту чи документів я буду використовувати API .NET SDK GroupDocs.Classification Cloud. Це дозволяє класифікувати ваш необроблений текст, а також документи за попередньо визначеними категоріями. SDK підтримує кілька типів таксономії, як-от IAB-2, таксономія Documents & Sentiment. Інформація про класифікацію показує найкращий клас із його оцінкою ймовірності.

Ви можете встановити GroupDocs.Classification у свій проект Visual Studio з диспетчера пакетів NuGet або за допомогою такої команди в консолі диспетчера пакетів:

Install-Package GroupDocs.Classification-Cloud

Будь ласка, отримайте свій ідентифікатор клієнта та секрет клієнта з інформаційної панелі, перш ніж почати виконувати кроки та доступні приклади коду. Отримавши ідентифікатор клієнта та секрет, додайте код, як показано нижче:

var configuration = new Configuration();
configuration.ClientId = "659fe7da-715b-4744-a0f7-cf469a392b73";
configuration.ClientSecret = "b377c36cfa28fa69960ebac6b6e36421";

Класифікуйте документи Word за допомогою REST API у C#

Ви можете класифікувати свої документи Word, виконавши прості дії, наведені нижче:

Завантажте документ

По-перше, завантажте файл DOCX у хмару, використовуючи наведений нижче зразок коду:

// Ініціалізація API
var apiInstance = new FileApi(configuration);

// Відкрити файл в IOStream з локального/диска.
var fileStream = File.Open("C:\\Files\\sample.docx", FileMode.Open);

// Створити запит на завантаження файлу
var request = new UploadFileRequest("sample.docx", fileStream, "");

var response = apiInstance.UploadFile(request);

У результаті завантажений файл DOCX буде доступний у розділі файлів вашої інформаційної панелі в хмарі.

Класифікуйте документи Word за допомогою C#

Ви можете програмно класифікувати документи Word, дотримуючись наведених нижче кроків.

  • Створіть екземпляр ClassificationApi
  • Створіть екземпляр BaseRequest
  • Встановіть шлях до файлу DOCX і призначте його документу BaseRequest
  • Створіть ClassifyRequest за допомогою BaseRequest
  • Встановити BaseClassesCount
  • Отримайте ClassificationResponse, викликавши метод ClassificationApi.Classify()

У наведеному нижче прикладі коду показано, як класифікувати документ Word за допомогою REST API.

// Ініціалізація API
var apiInstance = new ClassificationApi(configuration);

// Створити базовий запит
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Створити запит на класифікацію
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Отримати результати класифікації
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
Класифікуйте документи Word за допомогою REST API у C#

Класифікуйте документи Word за допомогою REST API у C#

Класифікуйте документи Word для таксономії за допомогою C#

Ви можете програмно класифікувати документи Word для таксономії, дотримуючись наведених нижче кроків.

  • Створіть екземпляр ClassificationApi
  • Створіть екземпляр BaseRequest
  • Встановіть шлях до файлу DOCX і призначте його документу BaseRequest
  • Створіть ClassifyRequest за допомогою BaseRequest
  • Встановити BaseClassesCount
  • Встановити таксономію
  • Отримайте ClassificationResponse, викликавши метод ClassificationApi.Classify()

У наведеному нижче прикладі коду показано, як класифікувати документ Word за таксономією «документи» за допомогою REST API. Щоб завантажити файл, виконайте наведені вище дії.

// Ініціалізація API
var apiInstance = new ClassificationApi(configuration);

// Створити базовий запит
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Створити запит на класифікацію
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";
request.Taxonomy = "documents";

// Отримати результати класифікації
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: ADVE
ClassProbability: 77.17
--------------------------------
ClassName: Resume
ClassProbability: 22.83
--------------------------------
ClassName: Scientific
ClassProbability: 0.01
--------------------------------

Для класифікації документів можна використовувати наступне:

  • за замовчуванням
  • iab2
  • документів
  • почуття
  • почуття3

Ви можете прочитати більше про класифікацію параметрів запиту в розділі «Класифікація параметрів запиту».

Класифікуйте необроблений текст за допомогою REST API у C#

Ви можете програмно класифікувати будь-який необроблений текст, дотримуючись наведених нижче кроків.

  • Створіть екземпляр ClassificationApi
  • Створіть екземпляр BaseRequest
  • Надайте необроблений текст до опису BaseRequest
  • Створіть ClassifyRequest за допомогою BaseRequest
  • Встановити BaseClassesCount
  • Отримайте ClassificationResponse, викликавши метод ClassificationApi.Classify()

У наступному прикладі коду показано, як класифікувати необроблений текст за допомогою REST API.

// Ініціалізація API
var apiInstance = new ClassificationApi(configuration);

// Створити базовий запит
BaseRequest baseRequest = new BaseRequest();
baseRequest.Description = "We support some of the most popular file formats in business, "
    + "including Microsoft Word documents, Excel spreadsheets, PowerPoint presentations, "
    + "Outlook emails and archives, Visio diagrams, Project files, and Adobe Acrobat PDF documents..";

// Створити запит на класифікацію
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Отримати результати класифікації
var response = apiInstance.Classify(request);
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: Hobbies_&_Interests
ClassProbability: 43.02
--------------------------------
ClassName: Business_and_Finance
ClassProbability: 26.64
--------------------------------
ClassName: Technology_&_Computing
ClassProbability: 18.25
--------------------------------

Спробуйте онлайн

Будь ласка, спробуйте наведений нижче безкоштовний онлайн-інструмент класифікації, розроблений за допомогою вищезазначеного API. https://products.groupdocs.app/класифікація[/](https:/ /products.groupdocs.app/splitter/pdf)

Висновок

У цій статті ви дізналися, як класифікувати документи Word і необроблений текст у хмарі за допомогою C#. Ви також дізналися, як програмно завантажити файл DOCX у хмару. Ви можете дізнатися більше про GroupDocs.Classification Cloud API, використовуючи документацію. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. У разі будь-яких неясностей зв’яжіться з нами на форумі.

Дивись також