Classer les fichiers PDF dans .NET est essentiel pour automatiser les flux de travail de documents, extraire des informations et acheminer le contenu sans révision manuelle. GroupDocs.Classification Cloud SDK for .NET fournit une API puissante qui rend la classification des PDF facile et évolutive. Dans ce tutoriel, vous apprendrez un flux de travail complet de classification PDF, de la configuration du projet et de la taxonomie au traitement par lots, à la gestion OCR des PDF numérisés et à l’optimisation des performances, avec des exemples de code prêts à l’emploi.

Étapes pour classer les fichiers PDF en .NET

  1. Ajouter le package NuGet - Exécutez dotnet add package GroupDocs.Classification-Cloud pour inclure la bibliothèque dans votre projet.
  2. Créer et configurer le client API - Initialisez ClassificationApi avec votre ID client et votre secret.
  3. Téléverser le PDF - Utilisez le point de terminaison UploadFile pour envoyer le document vers le stockage cloud.
  4. Définir la taxonomie - Fournissez un fichier JSON qui associe les catégories aux mots‑clés ; cela guide le moteur de classification.
  5. Appeler la méthode de classification - Appelez ClassifyDocument avec l’ID du fichier, la taxonomie et un seuil de confiance optionnel.
  6. Traiter les résultats - Parcourez les objets ClassificationResult, en vérifiant la propriété Confidence pour filtrer les libellés à faible confiance.

Pour plus de détails sur les objets de requête, consultez la référence API.

Classer les fichiers PDF efficacement en .NET - Exemple de code complet

L’exemple suivant montre une classification complète de bout en bout d’un seul fichier PDF, incluant la gestion des erreurs et le traitement des résultats.

Remarque : Cet exemple de code montre la fonctionnalité principale. Avant de l’utiliser dans votre projet, assurez‑vous de mettre à jour les chemins de fichiers (sample.pdf, taxonomy.json), de remplacer les informations d’identification factices par vos réels YOUR_CLIENT_ID et YOUR_CLIENT_SECRET, et de tester soigneusement dans votre environnement de développement. Si vous rencontrez des problèmes, veuillez consulter la documentation officielle ou contacter l’équipe de support pour obtenir de l’aide.

Classification PDF via API REST avec cURL

Le SDK fonctionne via une API REST, vous pouvez donc également l’appeler directement avec cURL. Voici les étapes typiques.

  1. Obtenir un jeton d’accès
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
  1. Téléverser le fichier PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
        -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
        -F "file=@sample.pdf"
  1. Classer le document
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'
  1. Télécharger le résultat (si nécessaire) - L’API renvoie du JSON directement ; vous pouvez le rediriger vers un fichier.

Pour plus de détails, consultez la documentation officielle de l’API.

Installation et configuration sous .NET

  1. Installez le package NuGet
    dotnet add package GroupDocs.Classification-Cloud
    
  2. Téléchargez le dernier binaire (facultatif) depuis la page de publication.
  3. Ajoutez votre licence temporaire (développement uniquement) en copiant le fichier de licence et en initialisant l’objet Configuration comme indiqué dans l’exemple de code.
  4. Vérifiez la connectivité - Exécutez un appel simple GetSupportedFileTypes pour vous assurer que le client peut atteindre le service.

Utilisation de GroupDocs.Classification Cloud SDK pour la classification PDF en .NET

Le SDK masque la gestion HTTP, la sérialisation et le mappage des erreurs, vous permettant de vous concentrer sur la logique métier. Il prend en charge :

  • Multiples langues - L’API est indépendante du langage ; le client .NET suit le même contrat.
  • Classification basée sur la taxonomie - Vous définissez les catégories une fois et les réutilisez dans plusieurs projets.
  • Score de confiance - Chaque étiquette comprend une valeur de confiance, permettant un filtrage basé sur un seuil.

Comprendre ces fonctionnalités vous aide à concevoir un flux de travail de classification PDF robuste.

GroupDocs.Classification Cloud SDK Features That Matter for This Task

  • Traitement par lots - Classifiez des milliers de PDF en une seule requête.
  • Intégration OCR - Extrayez automatiquement le texte des PDF numérisés avant la classification.
  • Prise en charge de la taxonomie personnalisée - Téléchargez des taxonomies JSON ou XML pour correspondre à votre domaine.
  • Journalisation détaillée - Récupérez les ID de requête pour le dépannage et les pistes d’audit.

Configuration de la taxonomie de classification et des seuils de confiance

Créez un fichier taxonomy.json qui décrit vos catégories :

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

Lors de la création de la ClassifyDocumentRequest, définissez la propriété ConfidenceThreshold (par exemple, 0.6) pour filtrer les prédictions incertaines. Ajustez cette valeur en fonction de la tolérance de votre domaine aux faux positifs.

Optimisation des performances pour les gros lots de PDF

  • Diviser le lot - Divisez les grandes collections en groupes de 100‑200 fichiers pour éviter les dépassements de délai.
  • Activer le traitement asynchrone - Utilisez le point de terminaison SubmitJob et interrogez GetJobStatus pour libérer les threads.
  • Réutiliser la même taxonomie - Chargez la taxonomie une fois et réutilisez la même chaîne JSON pour toutes les requêtes.
  • Téléchargements parallèles - Téléchargez les fichiers simultanément en utilisant Task.WhenAll pour réduire la latence du réseau.
ScénarioApproche recommandée
< 100 PDFRequête unique synchrone
100‑1,000 PDFLots synchrones segmentés
> 1,000 PDFSoumission de tâche asynchrone + interrogation

Gestion des PDF numérisés et intégration OCR

Les documents numérisés contiennent des images au lieu de texte sélectionnable. Pour les classer :

  1. Définissez le drapeau ocr sur true dans la requête.
  2. Spécifiez éventuellement ocrLanguage (par ex., "en" pour l’anglais).
  3. Le service exécute l’OCR en interne avant d’appliquer les règles de taxonomie.

Ce processus en deux étapes garantit que les PDF contenant uniquement des images sont traités de la même manière que les PDF natifs pour la classification.

Dépannage des erreurs de classification courantes

  • 401 Unauthorized - Vérifiez que ClientId et ClientSecret sont corrects et que la demande de jeton a réussi.
  • 400 Bad Request (Invalid Taxonomy) - Assurez-vous que le JSON de taxonomie est bien formé ; les crochets manquants provoquent cette erreur.
  • 404 Not Found (File ID) - Confirmez que le fichier a été téléchargé avec succès et que le fileId correspond au chemin de stockage.
  • Low confidence scores - Examinez les mots‑clés de votre taxonomie ; ajoutez des termes plus représentatifs ou augmentez l’ensemble d’entraînement.

Pour une liste complète des codes d’erreur, consultez la référence API.

Meilleures pratiques pour la classification PDF en .NET

  • Gardez la taxonomie petite et ciblée - Trop de mots‑clés qui se chevauchent réduisent la précision.
  • Utilisez des fichiers de taxonomie versionnés - Stockez‑les dans le contrôle de version pour suivre les modifications.
  • Définissez un seuil de confiance approprié - Commencez avec 0.6 et ajustez en fonction des résultats de validation.
  • Surveillez l’état du travail - Enregistrez les ID de requête et les temps de réponse pour l’analyse des performances.
  • Sécurisez les informations d’identification - Stockez ClientId et ClientSecret dans des variables d’environnement ou Azure Key Vault.

Conclusion

La classification des fichiers PDF sous .NET devient simple avec le GroupDocs.Classification Cloud SDK for .NET. En suivant les étapes décrites ci‑dessus — configuration du SDK, définition d’une taxonomie claire, gestion de l’OCR pour les PDF numérisés et optimisation des performances par lots — vous pouvez créer un service de classification fiable et évolutif pour toute application à forte intensité documentaire. N’oubliez pas d’obtenir une licence appropriée pour la production ; vous pouvez commencer avec une licence temporaire depuis la page de licence temporaire et passer à un abonnement complet à mesure que vos besoins augmentent.

FAQ

Q : Comment puis‑je classer des fichiers PDF dans .NET avec une grande confiance ?
A : Définissez le ConfidenceThreshold dans la requête pour filtrer les résultats à faible confiance. Le SDK renvoie un score de confiance pour chaque libellé, vous permettant de ne conserver que les prédictions supérieures au niveau choisi. Consultez la documentation officielle pour plus de détails.

Q: Le SDK prend‑il en charge l’OCR pour les PDF numérisés ?
A: Oui. Activez l’OCR en définissant le drapeau ocr dans la requête de classification. Le service extrait le texte des PDF basés sur des images avant d’appliquer la taxonomie, améliorant la précision pour les documents numérisés.

Q : Quelle est la meilleure façon de traiter des milliers de PDF ?
R : Utilisez la classification par lots avec des travaux asynchrones. Divisez les grands ensembles en morceaux gérables, soumettez‑les via SubmitJob et interrogez GetJobStatus jusqu’à leur achèvement. Cette approche évite les dépassements de temps et maximise le débit.

Q : Où puis‑je obtenir une licence temporaire pour le développement ?
R : Visitez la page de licence temporaire pour générer une clé de licence de 30 jours. Appliquez‑la dans votre Configuration avant d’effectuer des appels API.

En savoir plus