Clasificar archivos PDF en .NET es esencial para automatizar flujos de trabajo de documentos, extraer información y enrutar contenido sin revisión manual. GroupDocs.Classification Cloud SDK for .NET ofrece una API potente que hace que la clasificación de PDF sea fácil y escalable. En este tutorial aprenderá un flujo de trabajo completo de clasificación de PDF, desde la configuración del proyecto y la taxonomía hasta el procesamiento por lotes, el manejo de OCR para PDFs escaneados y la optimización del rendimiento, con ejemplos de código listos para ejecutar.

Pasos para clasificar archivos PDF en .NET

  1. Agregar el paquete NuGet - Ejecuta dotnet add package GroupDocs.Classification-Cloud para incluir la biblioteca en tu proyecto.
  2. Crear y configurar el cliente API - Inicializa ClassificationApi con tu ID de cliente y secreto.
  3. Cargar el PDF - Usa el endpoint UploadFile para enviar el documento al almacenamiento en la nube.
  4. Definir la taxonomía - Proporciona un archivo JSON que asocie categorías con palabras clave; esto guía al motor de clasificación.
  5. Llamar al método de clasificación - Invoca ClassifyDocument con el ID del archivo, la taxonomía y un umbral de confianza opcional.
  6. Procesar los resultados - Itera sobre los objetos ClassificationResult, verificando la propiedad Confidence para filtrar etiquetas de baja confianza.

Para obtener más detalles sobre los objetos de solicitud, consulte la referencia de API.

Clasificar archivos PDF de manera eficiente en .NET - Ejemplo de código completo

El siguiente ejemplo muestra una clasificación completa de extremo a extremo de un solo archivo PDF, incluyendo el manejo de errores y el procesamiento de resultados.

Nota: Este ejemplo de código muestra la funcionalidad principal. Antes de usarlo en su proyecto, asegúrese de actualizar las rutas de los archivos (sample.pdf, taxonomy.json), reemplace las credenciales de marcador de posición con su YOUR_CLIENT_ID y YOUR_CLIENT_SECRET reales, y pruebe exhaustivamente en su entorno de desarrollo. Si encuentra algún problema, consulte la documentación oficial o póngase en contacto con el equipo de soporte para obtener ayuda.

Clasificación de PDF mediante API REST usando cURL

El SDK funciona sobre una API REST, por lo que también puedes llamarlo directamente con cURL. A continuación se presentan los pasos típicos.

  1. Obtener un token de acceso
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
  1. Cargar el archivo PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
        -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
        -F "file=@sample.pdf"
  1. Clasificar el documento
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'
  1. Descargar el resultado (si es necesario) - La API devuelve JSON directamente; puedes canalizarlo a un archivo.

Para obtener más detalles, consulte la documentación oficial de la API.

Instalación y configuración en .NET

  1. Instale el paquete NuGet
    dotnet add package GroupDocs.Classification-Cloud
    
  2. Descargue el binario más reciente (opcional) desde la página de lanzamientos.
  3. Agregue su licencia temporal (solo desarrollo) copiando el archivo de licencia e inicializando el objeto Configuration como se muestra en el ejemplo de código.
  4. Verifique la conectividad - Ejecute una llamada simple a GetSupportedFileTypes para asegurarse de que el cliente pueda alcanzar el servicio.

Uso de GroupDocs.Classification Cloud SDK para clasificación de PDF en .NET

El SDK abstrae la gestión de HTTP, la serialización y el mapeo de errores, lo que le permite centrarse en la lógica de negocio. Soporta:

  • Múltiples idiomas - La API es independiente del lenguaje; el cliente .NET sigue el mismo contrato.
  • Clasificación basada en taxonomía - Define categorías una vez y reutilízalas en varios proyectos.
  • Puntuación de confianza - Cada etiqueta incluye un valor de confianza, lo que permite filtrar basado en umbrales.

Comprender estas características le ayuda a diseñar un flujo de trabajo de clasificación de PDF robusto.

Características del SDK de GroupDocs.Classification Cloud que importan para esta tarea

  • Procesamiento por lotes - Clasifique miles de PDFs en una sola solicitud.
  • Integración OCR - Extraiga automáticamente texto de PDFs escaneados antes de la clasificación.
  • Soporte de taxonomía personalizada - Cargue taxonomías JSON o XML para que coincidan con su dominio.
  • Registro detallado - Recupere los IDs de solicitud para la solución de problemas y auditorías.

Configuración de la taxonomía de clasificación y umbrales de confianza

Cree un archivo taxonomy.json que describa sus categorías:

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

Al crear el ClassifyDocumentRequest, establezca la propiedad ConfidenceThreshold (p. ej., 0.6) para filtrar predicciones inciertas. Ajuste este valor según la tolerancia de su dominio a falsos positivos.

Optimización del rendimiento para lotes grandes de PDF

  • Dividir el lote - Divida colecciones grandes en grupos de 100‑200 archivos para evitar tiempos de espera.
  • Habilitar procesamiento asíncrono - Utilice el endpoint SubmitJob y consulte GetJobStatus para liberar hilos.
  • Reutilizar la misma taxonomía - Cargue la taxonomía una vez y reutilice la misma cadena JSON para todas las solicitudes.
  • Cargas paralelas - Suba archivos concurrentemente usando Task.WhenAll para reducir la latencia de la red.
EscenarioEnfoque recomendado
< 100 PDFsSolicitud única sincrónica
100‑1,000 PDFsLotes sincrónicos por fragmentos
> 1,000 PDFsEnvío de trabajo asíncrono + sondeo

Manejo de PDFs escaneados e integración OCR

Los documentos escaneados contienen imágenes en lugar de texto seleccionable. Para clasificarlos:

  1. Establezca el indicador ocr en true en la solicitud.
  2. Opcionalmente especifique ocrLanguage (p. ej., "en" para inglés).
  3. El servicio ejecuta OCR internamente antes de aplicar las reglas de taxonomía.

Este proceso de dos pasos garantiza que los PDFs solo de imágenes se traten de la misma manera que los PDFs nativos para la clasificación.

Solución de problemas de errores comunes de clasificación

  • 401 Unauthorized - Verifique que ClientId y ClientSecret sean correctos y que la solicitud de token haya tenido éxito.
  • 400 Bad Request (Invalid Taxonomy) - Asegúrese de que el JSON de la taxonomía esté bien formado; los corchetes faltantes provocan este error.
  • 404 Not Found (File ID) - Confirme que el archivo se haya subido correctamente y que fileId coincida con la ruta de almacenamiento.
  • Low confidence scores - Revise las palabras clave de su taxonomía; añada términos más representativos o aumente el conjunto de entrenamiento.

Para obtener una lista completa de códigos de error, consulte la referencia de API.

Mejores prácticas para la clasificación de PDF en .NET

  • Mantener la taxonomía pequeña y enfocada - Demasiadas palabras clave superpuestas reducen la precisión.
  • Utilizar archivos de taxonomía versionados - Almacénelos en control de versiones para rastrear cambios.
  • Establecer un umbral de confianza apropiado - Comience con 0.6 y ajústelo según los resultados de validación.
  • Supervisar el estado del trabajo - Registre los IDs de solicitud y los tiempos de respuesta para el análisis de rendimiento.
  • Proteger credenciales - Almacene ClientId y ClientSecret en variables de entorno o Azure Key Vault.

Conclusión

Clasificar archivos PDF en .NET se vuelve sencillo con el GroupDocs.Classification Cloud SDK for .NET. Siguiendo los pasos descritos arriba —configurar el SDK, definir una taxonomía clara, manejar OCR para PDFs escaneados y optimizar el rendimiento por lotes— puedes crear un servicio de clasificación fiable y escalable para cualquier aplicación intensiva en documentos. Recuerda obtener una licencia adecuada para uso en producción; puedes comenzar con una licencia temporal desde la página de licencia temporal y actualizar a una suscripción completa a medida que crezcan tus necesidades.

FAQs

Q: ¿Cómo puedo clasificar archivos PDF en .NET con alta confianza?
A: Establezca el ConfidenceThreshold en la solicitud para filtrar los resultados de baja confianza. El SDK devuelve una puntuación de confianza para cada etiqueta, lo que le permite conservar solo las predicciones por encima del nivel que elija. Consulte la documentación oficial para obtener más detalles.

Q: ¿El SDK admite OCR para PDFs escaneados?
A: Sí. Habilite OCR estableciendo la bandera ocr en la solicitud de clasificación. El servicio extrae texto de los PDFs basados en imágenes antes de aplicar la taxonomía, mejorando la precisión para documentos escaneados.

P: ¿Cuál es la mejor manera de procesar miles de PDFs?
R: Utilice la clasificación por lotes con trabajos asíncronos. Divida los conjuntos grandes en fragmentos manejables, envíelos mediante SubmitJob y consulte GetJobStatus hasta que se complete. Este enfoque evita los tiempos de espera y maximiza el rendimiento.

Q: ¿Dónde puedo obtener una licencia temporal para desarrollo?
A: Visite la página de licencia temporal para generar una clave de licencia de 30‑day. Aplíquela en su Configuration antes de realizar llamadas a la API.

Read More