Klasifikujte dokumenty a surový text pomocí C#

Klasifikace textu nebo kategorizace textu je proces přiřazování značek nebo kategorizace textu do organizovaných skupin. Jako vývojář C# můžete snadno klasifikovat nezpracovaný text nebo dokumenty programově v cloudu. V tomto článku se dozvíte, jak klasifikovat dokumenty a nezpracovaný text pomocí REST API v C#.

V tomto článku se diskutuje/pokrývá následující témata:

Klasifikace dokumentů REST API a .NET SDK

Pro klasifikaci textu nebo dokumentů budu používat .NET SDK of GroupDocs.Classification Cloud API. Umožňuje vám klasifikovat nezpracovaný text i dokumenty do předdefinovaných kategorií. Sada SDK podporuje několik typů taxonomie, jako je taxonomie IAB-2, Dokumenty a Sentiment. Klasifikační informace ukazují nejlepší třídu s jejím skóre pravděpodobnosti.

GroupDocs.Classification můžete nainstalovat do svého projektu Visual Studio z NuGet Správce balíčků nebo pomocí následujícího příkazu v konzole Správce balíčků:

Install-Package GroupDocs.Classification-Cloud

Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID klienta a tajný klíč, přidejte kód, jak je uvedeno níže:

var configuration = new Configuration();
configuration.ClientId = "659fe7da-715b-4744-a0f7-cf469a392b73";
configuration.ClientSecret = "b377c36cfa28fa69960ebac6b6e36421";

Klasifikujte dokumenty Word pomocí REST API v C#

Své dokumenty Word můžete klasifikovat podle následujících jednoduchých kroků:

Nahrajte dokument

Nejprve nahrajte soubor DOCX do cloudu pomocí níže uvedeného příkladu kódu:

// Inicializace API
var apiInstance = new FileApi(configuration);

// Otevřete soubor v IOStream z místního disku/disku.
var fileStream = File.Open("C:\\Files\\sample.docx", FileMode.Open);

// Vytvořit požadavek na nahrání souboru
var request = new UploadFileRequest("sample.docx", fileStream, "");

var response = apiInstance.UploadFile(request);

V důsledku toho bude nahraný soubor DOCX dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Klasifikujte dokumenty Word pomocí C#

Dokumenty Wordu můžete klasifikovat programově podle následujících kroků.

  • Vytvořte instanci ClassificationApi
  • Vytvořte instanci BaseRequest
  • Nastavte cestu k souboru DOCX a přiřaďte ji dokumentu BaseRequest
  • Vytvořte ClassifyRequest s BaseRequest
  • Nastavte BaseClassesCount
  • Získejte ClassificationResponse voláním metody ClassificationApi.Classify()

Následující ukázka kódu ukazuje, jak klasifikovat dokument aplikace Word pomocí rozhraní REST API.

// Inicializace API
var apiInstance = new ClassificationApi(configuration);

// Vytvořit základní požadavek
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Vytvořit požadavek na klasifikaci
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Získejte výsledky klasifikace
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
Klasifikujte dokumenty Word pomocí REST API v C#

Klasifikujte dokumenty Word pomocí REST API v C#

Klasifikujte dokumenty Word pro taxonomii pomocí C#

Dokumenty Wordu pro taxonomii můžete klasifikovat programově podle následujících kroků.

  • Vytvořte instanci ClassificationApi
  • Vytvořte instanci BaseRequest
  • Nastavte cestu k souboru DOCX a přiřaďte ji dokumentu BaseRequest
  • Vytvořte ClassifyRequest s BaseRequest
  • Nastavte BaseClassesCount
  • Nastavit taxonomii
  • Získejte ClassificationResponse voláním metody ClassificationApi.Classify()

Následující ukázka kódu ukazuje, jak klasifikovat dokument aplikace Word pro taxonomii “dokumenty” pomocí rozhraní REST API. Při nahrání souboru postupujte podle výše uvedených kroků.

// Inicializace API
var apiInstance = new ClassificationApi(configuration);

// Vytvořit základní požadavek
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Vytvořit požadavek na klasifikaci
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";
request.Taxonomy = "documents";

// Získejte výsledky klasifikace
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: ADVE
ClassProbability: 77.17
--------------------------------
ClassName: Resume
ClassProbability: 22.83
--------------------------------
ClassName: Scientific
ClassProbability: 0.01
--------------------------------

Ke klasifikaci dokumentů můžete použít následující taxonomii:

  • výchozí
  • iab2
  • dokumenty
  • sentiment
  • sentiment3

Další informace o klasifikaci parametrů požadavku si můžete přečíst v části „Classify Request Parameters“.

Klasifikace surového textu pomocí REST API v C#

Jakýkoli nezpracovaný text můžete klasifikovat programově podle následujících kroků.

  • Vytvořte instanci ClassificationApi
  • Vytvořte instanci BaseRequest
  • Zadejte nezpracovaný text popisu BaseRequest
  • Vytvořte ClassifyRequest s BaseRequest
  • Nastavte BaseClassesCount
  • Získejte ClassificationResponse voláním metody ClassificationApi.Classify()

Následující ukázka kódu ukazuje, jak klasifikovat nezpracovaný text pomocí REST API.

// Inicializace API
var apiInstance = new ClassificationApi(configuration);

// Vytvořit základní požadavek
BaseRequest baseRequest = new BaseRequest();
baseRequest.Description = "We support some of the most popular file formats in business, "
    + "including Microsoft Word documents, Excel spreadsheets, PowerPoint presentations, "
    + "Outlook emails and archives, Visio diagrams, Project files, and Adobe Acrobat PDF documents..";

// Vytvořit požadavek na klasifikaci
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Získejte výsledky klasifikace
var response = apiInstance.Classify(request);
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: Hobbies_&_Interests
ClassProbability: 43.02
--------------------------------
ClassName: Business_and_Finance
ClassProbability: 26.64
--------------------------------
ClassName: Technology_&_Computing
ClassProbability: 18.25
--------------------------------

Vyzkoušejte online

Vyzkoušejte prosím následující bezplatný online klasifikační nástroj, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/klasifikace[/](https:/ /products.groupdocs.app/splitter/pdf)

Závěr

V tomto článku jste se naučili, jak klasifikovat dokumenty Word a nezpracovaný text v cloudu pomocí C#. Také jste se naučili, jak programově nahrát soubor DOCX do cloudu. Více o GroupDocs.Classification Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.

Viz také