Classificare i file PDF in .NET è fondamentale per automatizzare i flussi di lavoro dei documenti, estrarre informazioni e instradare i contenuti senza revisione manuale. GroupDocs.Classification Cloud SDK for .NET offre un’API potente che rende la classificazione dei PDF semplice e scalabile. In questo tutorial imparerai un flusso di lavoro completo per la classificazione dei PDF, dalla configurazione del progetto e della tassonomia all’elaborazione batch, alla gestione OCR per PDF scansionati e all’ottimizzazione delle prestazioni, con esempi di codice pronti all’uso.

Passaggi per classificare file PDF in .NET

  1. Aggiungi il pacchetto NuGet - Esegui dotnet add package GroupDocs.Classification-Cloud per includere la libreria nel tuo progetto.
  2. Crea e configura il client API - Inizializza ClassificationApi con il tuo client ID e secret.
  3. Carica il PDF - Usa l’endpoint UploadFile per inviare il documento allo storage cloud.
  4. Definisci la tassonomia - Fornisci un file JSON che mappa le categorie alle parole chiave; questo guida il motore di classificazione.
  5. Chiama il metodo di classificazione - Invoca ClassifyDocument con l’ID del file, la tassonomia e una soglia di confidenza opzionale.
  6. Elabora i risultati - Itera sugli oggetti ClassificationResult, controllando la proprietà Confidence per filtrare le etichette a bassa confidenza.

Per ulteriori dettagli sugli oggetti di richiesta, vedi il riferimento API.

Classifica i file PDF in modo efficiente in .NET - Esempio di codice completo

Il seguente esempio dimostra una classificazione completa end‑to‑end di un singolo file PDF, includendo la gestione degli errori e l’elaborazione dei risultati.

Nota: Questo esempio di codice dimostra la funzionalità principale. Prima di usarlo nel tuo progetto, assicurati di aggiornare i percorsi dei file (sample.pdf, taxonomy.json), sostituire le credenziali segnaposto con il tuo reale YOUR_CLIENT_ID e YOUR_CLIENT_SECRET, e testare accuratamente nell’ambiente di sviluppo. Se riscontri problemi, consulta la documentazione ufficiale o contatta il team di supporto per assistenza.

Classificazione PDF tramite REST API usando cURL

L’SDK opera su una REST API, quindi è possibile chiamarlo direttamente con cURL. Di seguito sono i passaggi tipici.

  1. Ottenere un token di accesso
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
  1. Carica il file PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -F "file=@sample.pdf"
  1. Classifica il documento
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'
  1. Scarica il risultato (se necessario) - L’API restituisce JSON direttamente; è possibile reindirizzarlo a un file.

Per ulteriori dettagli, vedere la documentazione ufficiale dell’API.

Installazione e configurazione in .NET

  1. Installa il pacchetto NuGet
    dotnet add package GroupDocs.Classification-Cloud
    
  2. Scarica l’ultima versione binaria (opzionale) dalla pagina di rilascio.
  3. Aggiungi la tua licenza temporanea (solo per sviluppo) copiando il file di licenza e inizializzando l’oggetto Configuration come mostrato nell’esempio di codice.
  4. Verifica la connettività - Esegui una semplice chiamata GetSupportedFileTypes per assicurarti che il client possa raggiungere il servizio.

Utilizzare GroupDocs.Classification Cloud SDK per la classificazione PDF in .NET

L’SDK astrae la gestione HTTP, la serializzazione e la mappatura degli errori, consentendoti di concentrarti sulla logica di business. Supporta:

  • Più lingue - L’API è indipendente dalla lingua; il client .NET segue lo stesso contratto.
  • Classificazione guidata dalla tassonomia - Definisci le categorie una volta e le riutilizzi nei progetti.
  • Punteggio di confidenza - Ogni etichetta include un valore di confidenza, consentendo il filtraggio basato su soglie.

Comprendere queste funzionalità ti aiuta a progettare un flusso di lavoro di classificazione PDF robusto.

Caratteristiche di GroupDocs.Classification Cloud SDK che Contano per Questo Compito

  • Elaborazione batch - Classifica migliaia di PDF in una singola richiesta.
  • Integrazione OCR - Estrai automaticamente il testo da PDF scansionati prima della classificazione.
  • Supporto per tassonomia personalizzata - Carica tassonomie JSON o XML per adattarle al tuo dominio.
  • Logging dettagliato - Recupera gli ID delle richieste per la risoluzione dei problemi e i registri di audit.

Configurazione della tassonomia di classificazione e delle soglie di fiducia

Crea un file taxonomy.json che descriva le tue categorie:

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

Durante la creazione della ClassifyDocumentRequest, impostare la proprietà ConfidenceThreshold (ad esempio, 0.6) per filtrare le previsioni incerte. Regolare questo valore in base alla tolleranza del proprio dominio per i falsi positivi.

Ottimizzazione delle prestazioni per grandi batch PDF

  • Dividi il batch - Suddividi le grandi collezioni in gruppi di 100‑200 file per evitare timeout.
  • Abilita l’elaborazione asincrona - Usa l’endpoint SubmitJob e interroga GetJobStatus per liberare i thread.
  • Riutilizza la stessa tassonomia - Carica la tassonomia una volta e riutilizza la stessa stringa JSON per tutte le richieste.
  • Caricamenti paralleli - Carica i file in modo concorrente usando Task.WhenAll per ridurre la latenza di rete.
ScenarioApproccio consigliato
< 100 PDFsRichiesta singola sincrona
100‑1,000 PDFsBatch sincroni a blocchi
> 1,000 PDFsInvio di job asincrono + polling

Gestione dei PDF scansionati e integrazione OCR

I documenti scansionati contengono immagini anziché testo selezionabile. Per classificarli:

  1. Imposta il flag ocr su true nella richiesta.
  2. Specifica facoltativamente ocrLanguage (ad es., "en" per l’inglese).
  3. Il servizio esegue OCR internamente prima di applicare le regole di tassonomia.

Questo processo a due fasi garantisce che i PDF solo immagine vengano trattati allo stesso modo dei PDF nativi per la classificazione.

Troubleshooting Common Classification Errors

  • 401 Unauthorized - Verifica che ClientId e ClientSecret siano corretti e che la richiesta del token sia riuscita.
  • 400 Bad Request (Invalid Taxonomy) - Assicurati che il JSON della tassonomia sia ben formattato; parentesi mancanti causano questo errore.
  • 404 Not Found (File ID) - Conferma che il file sia stato caricato correttamente e che fileId corrisponda al percorso di archiviazione.
  • Low confidence scores - Rivedi le parole chiave della tua tassonomia; aggiungi termini più rappresentativi o aumenta il set di addestramento.

Per un elenco completo di codici di errore, consultare il riferimento API.

Best practice per la classificazione PDF in .NET

  • Mantieni la tassonomia piccola e mirata - Troppi termini chiave sovrapposti riducono l’accuratezza.
  • Usa file di tassonomia versionati - Conservali nel controllo di versione per tenere traccia delle modifiche.
  • Imposta una soglia di confidenza appropriata - Inizia con 0.6 e regola in base ai risultati di validazione.
  • Monitora lo stato del lavoro - Registra gli ID delle richieste e i tempi di risposta per l’analisi delle prestazioni.
  • Proteggi le credenziali - Conserva ClientId e ClientSecret in variabili d’ambiente o in Azure Key Vault.

Conclusione

Classificare i file PDF in .NET diventa semplice con il GroupDocs.Classification Cloud SDK for .NET. Seguendo i passaggi descritti sopra — configurazione dell’SDK, definizione di una tassonomia chiara, gestione dell’OCR per PDF scansionati e ottimizzazione delle prestazioni batch — è possibile creare un servizio di classificazione affidabile e scalabile per qualsiasi applicazione document‑intensive. Ricorda di ottenere una licenza adeguata per l’uso in produzione; puoi iniziare con una licenza temporanea dalla pagina della licenza temporanea e passare a un abbonamento completo man mano che le tue esigenze crescono.

FAQ

Q: Come posso classificare i file PDF in .NET con alta confidenza?
A: Imposta il ConfidenceThreshold nella richiesta per filtrare i risultati a bassa confidenza. L’SDK restituisce un punteggio di confidenza per ogni etichetta, consentendoti di mantenere solo le previsioni al di sopra del livello scelto. Consulta la documentazione ufficiale per ulteriori dettagli.

Q: L’SDK supporta l’OCR per PDF scansionati?
A: Sì. Abilita l’OCR impostando il flag ocr nella richiesta di classificazione. Il servizio estrae il testo dai PDF basati su immagine prima di applicare la tassonomia, migliorando l’accuratezza per i documenti scansionati.

Q: Qual è il modo migliore per elaborare migliaia di PDF?
A: Utilizza la classificazione batch con lavori asincroni. Suddividi grandi insiemi in blocchi gestibili, inviali tramite SubmitJob e interroga GetJobStatus fino al completamento. Questo approccio evita i timeout e massimizza il throughput.

D: Dove posso ottenere una licenza temporanea per lo sviluppo?
R: Visita la pagina della licenza temporanea per generare una chiave di licenza di 30‑giorni. Applicala nella tua Configuration prima di effettuare le chiamate API.

Leggi di più