Klasyfikowanie plików PDF w .NET jest niezbędne do automatyzacji przepływów dokumentów, wyciągania informacji i kierowania treściami bez ręcznej weryfikacji. GroupDocs.Classification Cloud SDK for .NET zapewnia potężne API, które ułatwia i skalowalnie klasyfikuje pliki PDF. W tym samouczku poznasz kompletny proces klasyfikacji PDF, od konfiguracji projektu i taksonomii po przetwarzanie wsadowe, obsługę OCR dla zeskanowanych PDF‑ów oraz optymalizację wydajności, wraz z gotowymi przykładami kodu.
Kroki do klasyfikacji plików PDF w .NET
- Dodaj pakiet NuGet - Uruchom
dotnet add package GroupDocs.Classification-Cloud, aby dodać bibliotekę do swojego projektu. - Utwórz i skonfiguruj klienta API - Zainicjuj
ClassificationApiprzy użyciu swojego identyfikatora klienta i sekretu. - Prześlij PDF - Skorzystaj z punktu końcowego
UploadFile, aby wysłać dokument do pamięci w chmurze. - Zdefiniuj taksonomię - Dostarcz plik JSON, który mapuje kategorie na słowa kluczowe; to kieruje silnik klasyfikacji.
- Wywołaj metodę klasyfikacji - Wywołaj
ClassifyDocumentz identyfikatorem pliku, taksonomią i opcjonalnym progiem pewności. - Przetwórz wyniki - Przejdź przez obiekty
ClassificationResult, sprawdzając właściwośćConfidence, aby odfiltrować etykiety o niskiej pewności.
Aby uzyskać więcej informacji o obiektach żądania, zobacz referencję API.
Klasyfikuj pliki PDF wydajnie w .NET - Pełny przykład kodu
Poniższy przykład demonstruje pełną klasyfikację end‑to‑end pojedynczego pliku PDF, w tym obsługę błędów i przetwarzanie wyników.
Uwaga: Ten przykład kodu demonstruje podstawową funkcjonalność. Przed użyciem go w swoim projekcie upewnij się, że zaktualizowałeś ścieżki do plików (
sample.pdf,taxonomy.json), zamieniłeś przykładowe poświadczenia na własneYOUR_CLIENT_IDiYOUR_CLIENT_SECRET, oraz dokładnie przetestowałeś w środowisku deweloperskim. Jeśli napotkasz jakiekolwiek problemy, odwołaj się do oficjalnej dokumentacji lub skontaktuj się z zespołem wsparcia.
Klasyfikacja PDF za pomocą REST API przy użyciu cURL
SDK działa na bazie REST API, więc możesz również wywołać je bezpośrednio za pomocą cURL. Poniżej znajdują się typowe kroki.
- Uzyskaj token dostępu
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Prześlij plik PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Klasyfikuj dokument
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Pobierz wynik (w razie potrzeby) - API zwraca JSON bezpośrednio; możesz przekierować go do pliku.
Aby uzyskać więcej szczegółów, zobacz oficjalną dokumentację API.
Instalacja i konfiguracja w .NET
- Zainstaluj pakiet NuGet
dotnet add package GroupDocs.Classification-Cloud - Pobierz najnowszy plik binarny (opcjonalnie) ze strony wydania.
- Dodaj tymczasową licencję (tylko do rozwoju) kopiując plik licencji i inicjalizując obiekt
Configurationjak pokazano w przykładzie kodu. - Zweryfikuj połączenie – uruchom prostą metodę
GetSupportedFileTypes, aby upewnić się, że klient może połączyć się z usługą.
Korzystanie z GroupDocs.Classification Cloud SDK do klasyfikacji PDF w .NET
SDK ukrywa obsługę HTTP, serializację i mapowanie błędów, pozwalając skupić się na logice biznesowej. Obsługuje:
- Wiele języków - API jest niezależne od języka; klient .NET podąża za tym samym kontraktem.
- Klasyfikacja oparta na taksonomii - Definiujesz kategorie raz i ponownie używasz ich w różnych projektach.
- Ocena pewności - Każda etykieta zawiera wartość pewności, umożliwiając filtrowanie oparte na progach.
Zrozumienie tych funkcji pomaga zaprojektować solidny przepływ pracy klasyfikacji PDF.
GroupDocs.Classification Cloud SDK Features That Matter for This Task
- Batch processing – klasyfikuj tysiące plików PDF w jednym żądaniu.
- OCR integration – automatycznie wyodrębniaj tekst ze zeskanowanych plików PDF przed klasyfikacją.
- Custom taxonomy support – wgraj taksonomie w formacie JSON lub XML dopasowane do Twojej domeny.
- Detailed logging – pobieraj identyfikatory żądań w celu rozwiązywania problemów i tworzenia ścieżek audytu.
Konfigurowanie taksonomii klasyfikacji i progów pewności
Utwórz plik taxonomy.json, który opisuje Twoje kategorie:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
Podczas tworzenia ClassifyDocumentRequest ustaw właściwość ConfidenceThreshold (np. 0.6), aby odfiltrować niepewne prognozy. Dostosuj tę wartość w zależności od tolerancji na fałszywe alarmy w Twojej domenie.
Optymalizacja wydajności przy dużych partiach PDF
- Podziel partię - Podziel duże kolekcje na grupy po 100‑200 plików, aby uniknąć przekroczenia limitu czasu.
- Włącz przetwarzanie asynchroniczne - Użyj punktu końcowego
SubmitJobi odpytywajGetJobStatus, aby zwolnić wątki. - Ponowne użycie tej samej taksonomii - Wczytaj taksonomię raz i użyj tego samego ciągu JSON dla wszystkich żądań.
- Równoległe przesyłanie - Przesyłaj pliki jednocześnie przy użyciu
Task.WhenAll, aby zmniejszyć opóźnienie sieciowe.
| Scenariusz | Zalecane podejście |
|---|---|
| < 100 PDFs | Synchroniczne pojedyncze żądanie |
| 100‑1,000 PDFs | Partycjonowane synchroniczne partie |
| > 1,000 PDFs | Asynchroniczne przesyłanie zadań + odpytywanie |
Obsługa zeskanowanych plików PDF i integracja OCR
Zeskanowane dokumenty zawierają obrazy zamiast tekstu, który można zaznaczyć. Aby je sklasyfikować:
- Ustaw flagę
ocrnatruew żądaniu. - Opcjonalnie określ
ocrLanguage(np."en"dla języka angielskiego). - Usługa uruchamia OCR wewnętrznie przed zastosowaniem reguł taksonomii.
Ten dwustopniowy proces zapewnia, że pliki PDF zawierające wyłącznie obrazy są traktowane tak samo jak natywne pliki PDF podczas klasyfikacji.
Rozwiązywanie typowych błędów klasyfikacji
- 401 Unauthorized - Zweryfikuj, czy
ClientIdiClientSecretsą poprawne oraz czy żądanie tokena zakończyło się sukcesem. - 400 Bad Request (Invalid Taxonomy) - Upewnij się, że JSON taksonomii jest poprawnie sformatowany; brakujące nawiasy powodują ten błąd.
- 404 Not Found (File ID) - Potwierdź, że plik został pomyślnie przesłany i że
fileIdodpowiada ścieżce w magazynie. - Low confidence scores - Przejrzyj słowa kluczowe taksonomii; dodaj bardziej reprezentatywne terminy lub zwiększ zestaw treningowy.
Aby uzyskać pełną listę kodów błędów, zapoznaj się z referencją API.
Najlepsze praktyki klasyfikacji PDF w .NET
- Utrzymuj taksonomię małą i skoncentrowaną - Zbyt wiele nakładających się słów kluczowych obniża dokładność.
- Używaj wersjonowanych plików taksonomii - Przechowuj je w systemie kontroli wersji, aby śledzić zmiany.
- Ustaw odpowiedni próg pewności - Zacznij od
0.6i dostosuj w oparciu o wyniki walidacji. - Monitoruj status zadania - Loguj identyfikatory żądań i czasy odpowiedzi w celu analizy wydajności.
- Zabezpiecz poświadczenia - Przechowuj
ClientIdiClientSecretw zmiennych środowiskowych lub Azure Key Vault.
Wnioski
Klasyfikowanie plików PDF w .NET staje się proste dzięki GroupDocs.Classification Cloud SDK for .NET. Postępując zgodnie z opisanymi powyżej krokami: konfiguracją SDK, definiowaniem przejrzystej taksonomii, obsługą OCR dla zeskanowanych PDF‑ów oraz optymalizacją wydajności wsadowej, możesz zbudować niezawodną, skalowalną usługę klasyfikacji dla każdej aplikacji intensywnie pracującej z dokumentami. Pamiętaj, aby uzyskać odpowiednią licencję do użytku produkcyjnego; możesz rozpocząć od tymczasowej licencji dostępnej na stronie tymczasowej licencji i przejść na pełną subskrypcję w miarę rosnących potrzeb.
FAQ
Q: Jak mogę klasyfikować pliki PDF w .NET z wysoką pewnością?
A: Ustaw ConfidenceThreshold w żądaniu, aby odfiltrować wyniki o niskiej pewności. SDK zwraca wynik pewności dla każdej etykiety, co pozwala zachować tylko prognozy powyżej wybranego poziomu. Zobacz oficjalną dokumentację, aby uzyskać więcej szczegółów.
Q: Czy SDK obsługuje OCR dla zeskanowanych PDF‑ów?
A: Tak. Włącz OCR, ustawiając flagę ocr w żądaniu klasyfikacji. Usługa wyodrębnia tekst z PDF‑ów opartych na obrazach przed zastosowaniem taksonomii, zwiększając dokładność dla zeskanowanych dokumentów.
Q: Jaki jest najlepszy sposób przetwarzania tysięcy plików PDF?
A: Użyj klasyfikacji wsadowej z zadaniami asynchronicznymi. Podziel duże zestawy na zarządzalne fragmenty, wyślij je za pomocą SubmitJob i odpytywaj GetJobStatus aż do zakończenia. To podejście unika limitów czasu i maksymalizuje przepustowość.
Q: Gdzie mogę uzyskać tymczasową licencję do rozwoju?
A: Odwiedź stronę tymczasowej licencji, aby wygenerować klucz licencji na 30‑dniowy okres. Zastosuj go w swojej Configuration przed wykonywaniem wywołań API.
