Classificare i file PDF in .NET è fondamentale per automatizzare i flussi di lavoro dei documenti, estrarre informazioni e instradare i contenuti senza revisione manuale. GroupDocs.Classification Cloud SDK for .NET offre un’API potente che rende la classificazione dei PDF semplice e scalabile. In questo tutorial imparerai un flusso di lavoro completo per la classificazione dei PDF, dalla configurazione del progetto e della tassonomia all’elaborazione batch, alla gestione OCR per PDF scansionati e all’ottimizzazione delle prestazioni, con esempi di codice pronti all’uso.
Passaggi per classificare file PDF in .NET
- Aggiungi il pacchetto NuGet - Esegui
dotnet add package GroupDocs.Classification-Cloudper includere la libreria nel tuo progetto. - Crea e configura il client API - Inizializza
ClassificationApicon il tuo client ID e secret. - Carica il PDF - Usa l’endpoint
UploadFileper inviare il documento allo storage cloud. - Definisci la tassonomia - Fornisci un file JSON che mappa le categorie alle parole chiave; questo guida il motore di classificazione.
- Chiama il metodo di classificazione - Invoca
ClassifyDocumentcon l’ID del file, la tassonomia e una soglia di confidenza opzionale. - Elabora i risultati - Itera sugli oggetti
ClassificationResult, controllando la proprietàConfidenceper filtrare le etichette a bassa confidenza.
Per ulteriori dettagli sugli oggetti di richiesta, vedi il riferimento API.
Classifica i file PDF in modo efficiente in .NET - Esempio di codice completo
Il seguente esempio dimostra una classificazione completa end‑to‑end di un singolo file PDF, includendo la gestione degli errori e l’elaborazione dei risultati.
Nota: Questo esempio di codice dimostra la funzionalità principale. Prima di usarlo nel tuo progetto, assicurati di aggiornare i percorsi dei file (
sample.pdf,taxonomy.json), sostituire le credenziali segnaposto con il tuo realeYOUR_CLIENT_IDeYOUR_CLIENT_SECRET, e testare accuratamente nell’ambiente di sviluppo. Se riscontri problemi, consulta la documentazione ufficiale o contatta il team di supporto per assistenza.
Classificazione PDF tramite REST API usando cURL
L’SDK opera su una REST API, quindi è possibile chiamarlo direttamente con cURL. Di seguito sono i passaggi tipici.
- Ottenere un token di accesso
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Carica il file PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Classifica il documento
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Scarica il risultato (se necessario) - L’API restituisce JSON direttamente; è possibile reindirizzarlo a un file.
Per ulteriori dettagli, vedere la documentazione ufficiale dell’API.
Installazione e configurazione in .NET
- Installa il pacchetto NuGet
dotnet add package GroupDocs.Classification-Cloud - Scarica l’ultima versione binaria (opzionale) dalla pagina di rilascio.
- Aggiungi la tua licenza temporanea (solo per sviluppo) copiando il file di licenza e inizializzando l’oggetto
Configurationcome mostrato nell’esempio di codice. - Verifica la connettività - Esegui una semplice chiamata
GetSupportedFileTypesper assicurarti che il client possa raggiungere il servizio.
Utilizzare GroupDocs.Classification Cloud SDK per la classificazione PDF in .NET
L’SDK astrae la gestione HTTP, la serializzazione e la mappatura degli errori, consentendoti di concentrarti sulla logica di business. Supporta:
- Più lingue - L’API è indipendente dalla lingua; il client .NET segue lo stesso contratto.
- Classificazione guidata dalla tassonomia - Definisci le categorie una volta e le riutilizzi nei progetti.
- Punteggio di confidenza - Ogni etichetta include un valore di confidenza, consentendo il filtraggio basato su soglie.
Comprendere queste funzionalità ti aiuta a progettare un flusso di lavoro di classificazione PDF robusto.
Caratteristiche di GroupDocs.Classification Cloud SDK che Contano per Questo Compito
- Elaborazione batch - Classifica migliaia di PDF in una singola richiesta.
- Integrazione OCR - Estrai automaticamente il testo da PDF scansionati prima della classificazione.
- Supporto per tassonomia personalizzata - Carica tassonomie JSON o XML per adattarle al tuo dominio.
- Logging dettagliato - Recupera gli ID delle richieste per la risoluzione dei problemi e i registri di audit.
Configurazione della tassonomia di classificazione e delle soglie di fiducia
Crea un file taxonomy.json che descriva le tue categorie:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
Durante la creazione della ClassifyDocumentRequest, impostare la proprietà ConfidenceThreshold (ad esempio, 0.6) per filtrare le previsioni incerte. Regolare questo valore in base alla tolleranza del proprio dominio per i falsi positivi.
Ottimizzazione delle prestazioni per grandi batch PDF
- Dividi il batch - Suddividi le grandi collezioni in gruppi di 100‑200 file per evitare timeout.
- Abilita l’elaborazione asincrona - Usa l’endpoint
SubmitJobe interrogaGetJobStatusper liberare i thread. - Riutilizza la stessa tassonomia - Carica la tassonomia una volta e riutilizza la stessa stringa JSON per tutte le richieste.
- Caricamenti paralleli - Carica i file in modo concorrente usando
Task.WhenAllper ridurre la latenza di rete.
| Scenario | Approccio consigliato |
|---|---|
| < 100 PDFs | Richiesta singola sincrona |
| 100‑1,000 PDFs | Batch sincroni a blocchi |
| > 1,000 PDFs | Invio di job asincrono + polling |
Gestione dei PDF scansionati e integrazione OCR
I documenti scansionati contengono immagini anziché testo selezionabile. Per classificarli:
- Imposta il flag
ocrsutruenella richiesta. - Specifica facoltativamente
ocrLanguage(ad es.,"en"per l’inglese). - Il servizio esegue OCR internamente prima di applicare le regole di tassonomia.
Questo processo a due fasi garantisce che i PDF solo immagine vengano trattati allo stesso modo dei PDF nativi per la classificazione.
Troubleshooting Common Classification Errors
- 401 Unauthorized - Verifica che
ClientIdeClientSecretsiano corretti e che la richiesta del token sia riuscita. - 400 Bad Request (Invalid Taxonomy) - Assicurati che il JSON della tassonomia sia ben formattato; parentesi mancanti causano questo errore.
- 404 Not Found (File ID) - Conferma che il file sia stato caricato correttamente e che
fileIdcorrisponda al percorso di archiviazione. - Low confidence scores - Rivedi le parole chiave della tua tassonomia; aggiungi termini più rappresentativi o aumenta il set di addestramento.
Per un elenco completo di codici di errore, consultare il riferimento API.
Best practice per la classificazione PDF in .NET
- Mantieni la tassonomia piccola e mirata - Troppi termini chiave sovrapposti riducono l’accuratezza.
- Usa file di tassonomia versionati - Conservali nel controllo di versione per tenere traccia delle modifiche.
- Imposta una soglia di confidenza appropriata - Inizia con
0.6e regola in base ai risultati di validazione. - Monitora lo stato del lavoro - Registra gli ID delle richieste e i tempi di risposta per l’analisi delle prestazioni.
- Proteggi le credenziali - Conserva
ClientIdeClientSecretin variabili d’ambiente o in Azure Key Vault.
Conclusione
Classificare i file PDF in .NET diventa semplice con il GroupDocs.Classification Cloud SDK for .NET. Seguendo i passaggi descritti sopra — configurazione dell’SDK, definizione di una tassonomia chiara, gestione dell’OCR per PDF scansionati e ottimizzazione delle prestazioni batch — è possibile creare un servizio di classificazione affidabile e scalabile per qualsiasi applicazione document‑intensive. Ricorda di ottenere una licenza adeguata per l’uso in produzione; puoi iniziare con una licenza temporanea dalla pagina della licenza temporanea e passare a un abbonamento completo man mano che le tue esigenze crescono.
FAQ
Q: Come posso classificare i file PDF in .NET con alta confidenza?
A: Imposta il ConfidenceThreshold nella richiesta per filtrare i risultati a bassa confidenza. L’SDK restituisce un punteggio di confidenza per ogni etichetta, consentendoti di mantenere solo le previsioni al di sopra del livello scelto. Consulta la documentazione ufficiale per ulteriori dettagli.
Q: L’SDK supporta l’OCR per PDF scansionati?
A: Sì. Abilita l’OCR impostando il flag ocr nella richiesta di classificazione. Il servizio estrae il testo dai PDF basati su immagine prima di applicare la tassonomia, migliorando l’accuratezza per i documenti scansionati.
Q: Qual è il modo migliore per elaborare migliaia di PDF?
A: Utilizza la classificazione batch con lavori asincroni. Suddividi grandi insiemi in blocchi gestibili, inviali tramite SubmitJob e interroga GetJobStatus fino al completamento. Questo approccio evita i timeout e massimizza il throughput.
D: Dove posso ottenere una licenza temporanea per lo sviluppo?
R: Visita la pagina della licenza temporanea per generare una chiave di licenza di 30‑giorni. Applicala nella tua Configuration prima di effettuare le chiamate API.
