Clasificar documentos y texto sin formato usando C#

La clasificación de texto o categorización de texto es el proceso de asignar etiquetas o categorizar texto en grupos organizados. Como desarrollador de C#, puede clasificar fácilmente documentos o texto sin formato mediante programación en la nube. En este artículo, aprenderá a clasificar documentos y texto sin formato mediante una API REST en C#.

Los siguientes temas se discuten/tratan en este artículo:

Clasificación de documentos REST API y .NET SDK

Para clasificar texto o documentos, utilizaré la API .NET SDK de GroupDocs.Classification Cloud. Le permite clasificar su texto sin formato, así como documentos en categorías predefinidas. El SDK admite varios tipos de taxonomía, como IAB-2, taxonomía de documentos y opiniones. La información de clasificación muestra la mejor clase con su puntaje de probabilidad.

Puede instalar GroupDocs.Classification en su proyecto de Visual Studio desde el Administrador de paquetes NuGet o usando el siguiente comando en la consola del Administrador de paquetes:

Install-Package GroupDocs.Classification-Cloud

Obtenga su ID de cliente y Secreto de cliente del panel de control antes de comenzar a seguir los pasos y los ejemplos de código disponibles. Una vez que tenga su ID de cliente y secreto, agregue el código como se muestra a continuación:

var configuration = new Configuration();
configuration.ClientId = "659fe7da-715b-4744-a0f7-cf469a392b73";
configuration.ClientSecret = "b377c36cfa28fa69960ebac6b6e36421";

Clasifique documentos de Word usando una API REST en C#

Puede clasificar sus documentos de Word siguiendo los sencillos pasos que se indican a continuación:

Sube el documento

En primer lugar, cargue el archivo DOCX en la nube utilizando el ejemplo de código que se proporciona a continuación:

// Inicialización de la API
var apiInstance = new FileApi(configuration);

// Abra el archivo en IOStream desde local/disco.
var fileStream = File.Open("C:\\Files\\sample.docx", FileMode.Open);

// Crear solicitud de carga de archivos
var request = new UploadFileRequest("sample.docx", fileStream, "");

var response = apiInstance.UploadFile(request);

Como resultado, el archivo DOCX cargado estará disponible en la sección de archivos de su tablero en la nube.

Clasificar documentos de Word usando C#

Puede clasificar los documentos de Word mediante programación siguiendo los pasos que se indican a continuación.

  • Crear una instancia de ClassificationApi
  • Crear una instancia de BaseRequest
  • Establezca la ruta del archivo DOCX y asígnela al documento BaseRequest
  • Crear ClassifyRequest con BaseRequest
  • Establecer BaseClassesCount
  • Obtenga ClassificationResponse llamando al método ClassificationApi.Classify()

El siguiente ejemplo de código muestra cómo clasificar un documento de Word mediante una API REST.

// Inicialización de la API
var apiInstance = new ClassificationApi(configuration);

// Crear solicitud base
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Crear solicitud de clasificación
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Obtener resultados de clasificación
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
Clasifique documentos de Word usando una API REST en C#

Clasifique documentos de Word usando una API REST en C#

Clasificar documentos de Word para taxonomía usando C#

Puede clasificar documentos de Word para una taxonomía mediante programación siguiendo los pasos que se indican a continuación.

  • Crear una instancia de ClassificationApi
  • Crear una instancia de BaseRequest
  • Establezca la ruta del archivo DOCX y asígnela al documento BaseRequest
  • Crear ClassifyRequest con BaseRequest
  • Establecer BaseClassesCount
  • Establecer taxonomía
  • Obtén ClassificationResponse llamando al método ClassificationApi.Classify()

El siguiente ejemplo de código muestra cómo clasificar un documento de Word para la taxonomía de “documentos” mediante una API de REST. Siga los pasos mencionados anteriormente para cargar el archivo.

// Inicialización de la API
var apiInstance = new ClassificationApi(configuration);

// Crear solicitud base
BaseRequest baseRequest = new BaseRequest();
baseRequest.Document = new GroupDocs.Classification.Cloud.Sdk.Model.FileInfo()
{
    Name = "sample.docx",
    Folder = ""
};

// Crear solicitud de clasificación
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";
request.Taxonomy = "documents";

// Obtener resultados de clasificación
ClassificationResponse response = apiInstance.Classify(request);
foreach(var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: ADVE
ClassProbability: 77.17
--------------------------------
ClassName: Resume
ClassProbability: 22.83
--------------------------------
ClassName: Scientific
ClassProbability: 0.01
--------------------------------

Puede utilizar la siguiente taxonomía para clasificar los documentos:

  • por defecto
  • iab2
  • documentos
  • sentimiento
  • sentimiento3

Puede obtener más información sobre cómo clasificar los parámetros de solicitud en la sección “Clasificar parámetros de solicitud”.

Clasificar texto sin procesar usando una API REST en C#

Puede clasificar cualquier texto sin formato mediante programación siguiendo los pasos que se indican a continuación.

  • Crear una instancia de ClassificationApi
  • Crear instancia de BaseRequest
  • Proporcione texto sin procesar a la descripción de BaseRequest
  • Crear ClassifyRequest con BaseRequest
  • Establecer BaseClassesCount
  • Obtenga ClassificationResponse llamando al método ClassificationApi.Classify()

El siguiente ejemplo de código muestra cómo clasificar texto sin formato mediante una API REST.

// Inicialización de la API
var apiInstance = new ClassificationApi(configuration);

// Crear solicitud base
BaseRequest baseRequest = new BaseRequest();
baseRequest.Description = "We support some of the most popular file formats in business, "
    + "including Microsoft Word documents, Excel spreadsheets, PowerPoint presentations, "
    + "Outlook emails and archives, Visio diagrams, Project files, and Adobe Acrobat PDF documents..";

// Crear solicitud de clasificación
var request = new ClassifyRequest(baseRequest);
request.BestClassesCount = "3";

// Obtener resultados de clasificación
var response = apiInstance.Classify(request);
foreach (var r in response.BestResults)
{
    Console.WriteLine("ClassName: " + r.ClassName);
    Console.WriteLine("ClassProbability: " + r.ClassProbability);
    Console.WriteLine("--------------------------------");
}
ClassName: Hobbies_&_Interests
ClassProbability: 43.02
--------------------------------
ClassName: Business_and_Finance
ClassProbability: 26.64
--------------------------------
ClassName: Technology_&_Computing
ClassProbability: 18.25
--------------------------------

Prueba en línea

Pruebe la siguiente herramienta de clasificación en línea gratuita, que se desarrolla utilizando la API anterior. https://products.groupdocs.app/clasificación[/](https:/ /products.groupdocs.app/splitter/pdf)

Conclusión

En este artículo, ha aprendido a clasificar documentos de Word y texto sin formato en la nube con C#. También aprendió cómo cargar mediante programación el archivo DOCX en la nube. Puede obtener más información sobre GroupDocs.Classification Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. En caso de cualquier ambigüedad, no dude en contactarnos en el foro.

Ver también