Classifique documentos e texto bruto usando C#

Classificação de texto ou categorização de texto é o processo de atribuição de marcas ou categorização de texto em grupos organizados. Como desenvolvedor C#, você pode facilmente classificar texto bruto ou documentos programaticamente na nuvem. Neste artigo, você aprenderá como classificar documentos e texto bruto usando uma API REST em C#.

Os seguintes tópicos são discutidos/cobertos neste artigo:

API REST de classificação de documentos e SDK .NET

Para classificar texto ou documentos, usarei a API .NET SDK of GroupDocs.Classification Cloud. Ele permite que você classifique seu texto bruto, bem como documentos em categorias predefinidas. O SDK suporta vários tipos de taxonomia, como IAB-2, taxonomia Documents & Sentiment. As informações de classificação mostram a melhor classe com sua pontuação de probabilidade.

Você pode instalar GroupDocs.Classification em seu projeto do Visual Studio a partir do Gerenciador de Pacotes NuGet ou usando o seguinte comando no console do Gerenciador de Pacotes:

Install-Package GroupDocs.Classification-Cloud

Obtenha seu ID de cliente e Segredo do cliente no painel antes de começar a seguir as etapas e os exemplos de código disponíveis. Depois de ter seu ID de cliente e segredo, adicione o código conforme mostrado abaixo:

var configuration = new Configuration();
configuration.ClientId = "659fe7da-715b-4744-a0f7-cf469a392b73";
configuration.ClientSecret = "b377c36cfa28fa69960ebac6b6e36421";

Classifique documentos do Word usando uma API REST em C#

Você pode classificar seus documentos do Word seguindo as etapas simples abaixo:

Carregue o Documento

Em primeiro lugar, carregue o arquivo DOCX na nuvem usando o exemplo de código abaixo:

// inicialização da API
var apiInstance = new FileApi(configuration);

// Abra o arquivo no IOStream do local/disco.
var fileStream = File.Open("C:\\Files\\sample.docx", FileMode.Open);

// Criar solicitação de upload de arquivo
var request = new UploadFileRequest("sample.docx", fileStream, "");

var response = apiInstance.UploadFile(request);

Como resultado, o arquivo DOCX carregado estará disponível na seção de arquivos do seu painel na nuvem.

Classifique documentos do Word usando C#

Você pode classificar documentos do Word programaticamente seguindo as etapas abaixo.

  • Crie uma instância de ClassificationApi
  • Crie uma instância de BaseRequest
  • Defina o caminho do arquivo DOCX e atribua-o ao documento BaseRequest
  • Criar ClassifyRequest com BaseRequest
  • Definir BaseClassesCount
  • Obtenha ClassificationResponse chamando o método ClassificationApi.Classify()

O exemplo de código a seguir mostra como classificar um documento do Word usando uma API REST.

// inicialização da API
var apiInstance = new ClassificationApi(configuration);

// Criar solicitação básica
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Criar solicitação de classificação
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Obter resultados de classificação
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
Classifique documentos do Word usando uma API REST em C#

Classifique documentos do Word usando uma API REST em C#

Classifique documentos do Word para taxonomia usando C#

Você pode classificar documentos do Word para uma taxonomia programaticamente seguindo as etapas abaixo.

  • Crie uma instância de ClassificationApi
  • Crie uma instância de BaseRequest
  • Defina o caminho do arquivo DOCX e atribua-o ao documento BaseRequest
  • Criar ClassifyRequest com BaseRequest
  • Definir BaseClassesCount
  • Definir taxonomia
  • Obtenha ClassificationResponse chamando o método ClassificationApi.Classify()

O exemplo de código a seguir mostra como classificar um documento do Word para taxonomia de “documentos” usando uma API REST. Siga as etapas mencionadas anteriormente para fazer o upload do arquivo.

// inicialização da API
var apiInstance = new ClassificationApi(configuration);

// Criar solicitação básica
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Criar solicitação de classificação
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";
request.Taxonomy = "documents";

// Obter resultados de classificação
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: ADVE
ClassProbability: 77.17
--------------------------------
ClassName: Resume
ClassProbability: 22.83
--------------------------------
ClassName: Scientific
ClassProbability: 0.01
--------------------------------

Você pode usar o seguinte como uma taxonomia para classificar os documentos:

  • padrão
  • iab2
  • documentos
  • sentimento
  • sentimento3

Você pode ler mais sobre a classificação de parâmetros de solicitação na seção “Classificar parâmetros de solicitação”.

Classificar texto bruto usando uma API REST em C#

Você pode classificar qualquer texto bruto programaticamente seguindo as etapas abaixo.

  • Crie uma instância de ClassificationApi
  • Criar instância BaseRequest
  • Forneça texto bruto para a descrição de BaseRequest
  • Criar ClassifyRequest com BaseRequest
  • Definir BaseClassesCount
  • Obtenha ClassificationResponse chamando o método ClassificationApi.Classify()

O exemplo de código a seguir mostra como classificar texto bruto usando uma API REST.

// inicialização da API
var apiInstance = new ClassificationApi(configuration);

// Criar solicitação básica
BaseRequest baseRequest = new BaseRequest();
baseRequest.Description = "We support some of the most popular file formats in business, "
    + "including Microsoft Word documents, Excel spreadsheets, PowerPoint presentations, "
    + "Outlook emails and archives, Visio diagrams, Project files, and Adobe Acrobat PDF documents..";

// Criar solicitação de classificação
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Obter resultados de classificação
var response = apiInstance.Classify(request);
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: Hobbies_&_Interests
ClassProbability: 43.02
--------------------------------
ClassName: Business_and_Finance
ClassProbability: 26.64
--------------------------------
ClassName: Technology_&_Computing
ClassProbability: 18.25
--------------------------------

Experimente on-line

Experimente a seguinte ferramenta de classificação online gratuita, desenvolvida usando a API acima. https://products.groupdocs.app/classificação[/](https:/ /products.groupdocs.app/splitter/pdf)

Conclusão

Neste artigo, você aprendeu como classificar documentos do Word e texto bruto na nuvem usando C#. Você também aprendeu como carregar programaticamente o arquivo DOCX na nuvem. Você pode aprender mais sobre GroupDocs.Classification Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. Em caso de ambiguidade, sinta-se à vontade para nos contatar no fórum.

Veja também