Clasificar archivos PDF en .NET es esencial para automatizar flujos de trabajo de documentos, extraer información y enrutar contenido sin revisión manual. GroupDocs.Classification Cloud SDK for .NET ofrece una API potente que hace que la clasificación de PDF sea fácil y escalable. En este tutorial aprenderá un flujo de trabajo completo de clasificación de PDF, desde la configuración del proyecto y la taxonomía hasta el procesamiento por lotes, el manejo de OCR para PDFs escaneados y la optimización del rendimiento, con ejemplos de código listos para ejecutar.
Pasos para clasificar archivos PDF en .NET
- Agregar el paquete NuGet - Ejecuta
dotnet add package GroupDocs.Classification-Cloudpara incluir la biblioteca en tu proyecto. - Crear y configurar el cliente API - Inicializa
ClassificationApicon tu ID de cliente y secreto. - Cargar el PDF - Usa el endpoint
UploadFilepara enviar el documento al almacenamiento en la nube. - Definir la taxonomía - Proporciona un archivo JSON que asocie categorías con palabras clave; esto guía al motor de clasificación.
- Llamar al método de clasificación - Invoca
ClassifyDocumentcon el ID del archivo, la taxonomía y un umbral de confianza opcional. - Procesar los resultados - Itera sobre los objetos
ClassificationResult, verificando la propiedadConfidencepara filtrar etiquetas de baja confianza.
Para obtener más detalles sobre los objetos de solicitud, consulte la referencia de API.
Clasificar archivos PDF de manera eficiente en .NET - Ejemplo de código completo
El siguiente ejemplo muestra una clasificación completa de extremo a extremo de un solo archivo PDF, incluyendo el manejo de errores y el procesamiento de resultados.
Nota: Este ejemplo de código muestra la funcionalidad principal. Antes de usarlo en su proyecto, asegúrese de actualizar las rutas de los archivos (
sample.pdf,taxonomy.json), reemplace las credenciales de marcador de posición con suYOUR_CLIENT_IDyYOUR_CLIENT_SECRETreales, y pruebe exhaustivamente en su entorno de desarrollo. Si encuentra algún problema, consulte la documentación oficial o póngase en contacto con el equipo de soporte para obtener ayuda.
Clasificación de PDF mediante API REST usando cURL
El SDK funciona sobre una API REST, por lo que también puedes llamarlo directamente con cURL. A continuación se presentan los pasos típicos.
- Obtener un token de acceso
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Cargar el archivo PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Clasificar el documento
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Descargar el resultado (si es necesario) - La API devuelve JSON directamente; puedes canalizarlo a un archivo.
Para obtener más detalles, consulte la documentación oficial de la API.
Instalación y configuración en .NET
- Instale el paquete NuGet
dotnet add package GroupDocs.Classification-Cloud - Descargue el binario más reciente (opcional) desde la página de lanzamientos.
- Agregue su licencia temporal (solo desarrollo) copiando el archivo de licencia e inicializando el objeto
Configurationcomo se muestra en el ejemplo de código. - Verifique la conectividad - Ejecute una llamada simple a
GetSupportedFileTypespara asegurarse de que el cliente pueda alcanzar el servicio.
Uso de GroupDocs.Classification Cloud SDK para clasificación de PDF en .NET
El SDK abstrae la gestión de HTTP, la serialización y el mapeo de errores, lo que le permite centrarse en la lógica de negocio. Soporta:
- Múltiples idiomas - La API es independiente del lenguaje; el cliente .NET sigue el mismo contrato.
- Clasificación basada en taxonomía - Define categorías una vez y reutilízalas en varios proyectos.
- Puntuación de confianza - Cada etiqueta incluye un valor de confianza, lo que permite filtrar basado en umbrales.
Comprender estas características le ayuda a diseñar un flujo de trabajo de clasificación de PDF robusto.
Características del SDK de GroupDocs.Classification Cloud que importan para esta tarea
- Procesamiento por lotes - Clasifique miles de PDFs en una sola solicitud.
- Integración OCR - Extraiga automáticamente texto de PDFs escaneados antes de la clasificación.
- Soporte de taxonomía personalizada - Cargue taxonomías JSON o XML para que coincidan con su dominio.
- Registro detallado - Recupere los IDs de solicitud para la solución de problemas y auditorías.
Configuración de la taxonomía de clasificación y umbrales de confianza
Cree un archivo taxonomy.json que describa sus categorías:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
Al crear el ClassifyDocumentRequest, establezca la propiedad ConfidenceThreshold (p. ej., 0.6) para filtrar predicciones inciertas. Ajuste este valor según la tolerancia de su dominio a falsos positivos.
Optimización del rendimiento para lotes grandes de PDF
- Dividir el lote - Divida colecciones grandes en grupos de 100‑200 archivos para evitar tiempos de espera.
- Habilitar procesamiento asíncrono - Utilice el endpoint
SubmitJoby consulteGetJobStatuspara liberar hilos. - Reutilizar la misma taxonomía - Cargue la taxonomía una vez y reutilice la misma cadena JSON para todas las solicitudes.
- Cargas paralelas - Suba archivos concurrentemente usando
Task.WhenAllpara reducir la latencia de la red.
| Escenario | Enfoque recomendado |
|---|---|
| < 100 PDFs | Solicitud única sincrónica |
| 100‑1,000 PDFs | Lotes sincrónicos por fragmentos |
| > 1,000 PDFs | Envío de trabajo asíncrono + sondeo |
Manejo de PDFs escaneados e integración OCR
Los documentos escaneados contienen imágenes en lugar de texto seleccionable. Para clasificarlos:
- Establezca el indicador
ocrentrueen la solicitud. - Opcionalmente especifique
ocrLanguage(p. ej.,"en"para inglés). - El servicio ejecuta OCR internamente antes de aplicar las reglas de taxonomía.
Este proceso de dos pasos garantiza que los PDFs solo de imágenes se traten de la misma manera que los PDFs nativos para la clasificación.
Solución de problemas de errores comunes de clasificación
- 401 Unauthorized - Verifique que
ClientIdyClientSecretsean correctos y que la solicitud de token haya tenido éxito. - 400 Bad Request (Invalid Taxonomy) - Asegúrese de que el JSON de la taxonomía esté bien formado; los corchetes faltantes provocan este error.
- 404 Not Found (File ID) - Confirme que el archivo se haya subido correctamente y que
fileIdcoincida con la ruta de almacenamiento. - Low confidence scores - Revise las palabras clave de su taxonomía; añada términos más representativos o aumente el conjunto de entrenamiento.
Para obtener una lista completa de códigos de error, consulte la referencia de API.
Mejores prácticas para la clasificación de PDF en .NET
- Mantener la taxonomía pequeña y enfocada - Demasiadas palabras clave superpuestas reducen la precisión.
- Utilizar archivos de taxonomía versionados - Almacénelos en control de versiones para rastrear cambios.
- Establecer un umbral de confianza apropiado - Comience con
0.6y ajústelo según los resultados de validación. - Supervisar el estado del trabajo - Registre los IDs de solicitud y los tiempos de respuesta para el análisis de rendimiento.
- Proteger credenciales - Almacene
ClientIdyClientSecreten variables de entorno o Azure Key Vault.
Conclusión
Clasificar archivos PDF en .NET se vuelve sencillo con el GroupDocs.Classification Cloud SDK for .NET. Siguiendo los pasos descritos arriba —configurar el SDK, definir una taxonomía clara, manejar OCR para PDFs escaneados y optimizar el rendimiento por lotes— puedes crear un servicio de clasificación fiable y escalable para cualquier aplicación intensiva en documentos. Recuerda obtener una licencia adecuada para uso en producción; puedes comenzar con una licencia temporal desde la página de licencia temporal y actualizar a una suscripción completa a medida que crezcan tus necesidades.
FAQs
Q: ¿Cómo puedo clasificar archivos PDF en .NET con alta confianza?
A: Establezca el ConfidenceThreshold en la solicitud para filtrar los resultados de baja confianza. El SDK devuelve una puntuación de confianza para cada etiqueta, lo que le permite conservar solo las predicciones por encima del nivel que elija. Consulte la documentación oficial para obtener más detalles.
Q: ¿El SDK admite OCR para PDFs escaneados?
A: Sí. Habilite OCR estableciendo la bandera ocr en la solicitud de clasificación. El servicio extrae texto de los PDFs basados en imágenes antes de aplicar la taxonomía, mejorando la precisión para documentos escaneados.
P: ¿Cuál es la mejor manera de procesar miles de PDFs?
R: Utilice la clasificación por lotes con trabajos asíncronos. Divida los conjuntos grandes en fragmentos manejables, envíelos mediante SubmitJob y consulte GetJobStatus hasta que se complete. Este enfoque evita los tiempos de espera y maximiza el rendimiento.
Q: ¿Dónde puedo obtener una licencia temporal para desarrollo?
A: Visite la página de licencia temporal para generar una clave de licencia de 30‑day. Aplíquela en su Configuration antes de realizar llamadas a la API.
