.NET’te PDF dosyalarını sınıflandırmak, belge iş akışlarını otomatikleştirmek, içgörüler elde etmek ve içeriği manuel inceleme olmadan yönlendirmek için esastır. GroupDocs.Classification Cloud SDK for .NET güçlü bir API sunar ve PDF sınıflandırmayı kolay ve ölçeklenebilir hâle getirir. Bu öğreticide, proje kurulumundan taksonomi yapılandırmasına, toplu işleme, taranmış PDF’ler için OCR işleme ve performans ayarlarına kadar eksiksiz bir PDF Sınıflandırma iş akışını, çalıştırmaya hazır kod örnekleriyle öğreneceksiniz.

PDF Dosyalarını .NET’te Sınıflandırma Adımları

  1. NuGet paketini ekleyin - Projenize kütüphaneyi eklemek için dotnet add package GroupDocs.Classification-Cloud komutunu çalıştırın.
  2. API istemcisini oluşturun ve yapılandırın - ClassificationApi‘yi istemci kimliğiniz ve gizli anahtarınız ile başlatın.
  3. PDF’yi yükleyin - Belgeyi bulut depolamaya göndermek için UploadFile uç noktasını kullanın.
  4. Taksonomiyi tanımlayın - Kategorileri anahtar kelimelere eşleyen bir JSON dosyası sağlayın; bu, sınıflandırma motorunu yönlendirir.
  5. Sınıflandırma metodunu çağırın - ClassifyDocument‘i dosya kimliği, taksonomi ve isteğe bağlı güven eşiği ile çalıştırın.
  6. Sonuçları işleyin - ClassificationResult nesneleri üzerinde döngü kurarak Confidence özelliğini kontrol edin ve düşük güvenilirlikteki etiketleri filtreleyin.

İstek nesneleri hakkında daha fazla ayrıntı için, API referansına bakın.

PDF Dosyalarını .NET’te Verimli Şekilde Sınıflandırma - Tam Kod Örneği

Aşağıdaki örnek, hata yönetimi ve sonuç işleme dahil olmak üzere tek bir PDF dosyasının tam uçtan uca sınıflandırmasını göstermektedir.

Not: Bu kod örneği temel işlevselliği göstermektedir. Projenizde kullanmadan önce dosya yollarını (sample.pdf, taxonomy.json) güncellediğinizden, yer tutucu kimlik bilgilerini gerçek YOUR_CLIENT_ID ve YOUR_CLIENT_SECRET değerlerinizle değiştirdiğinizden ve geliştirme ortamınızda kapsamlı bir şekilde test ettiğinizden emin olun. Herhangi bir sorunla karşılaşırsanız, lütfen resmi dokümantasyona bakın veya destek ekibi ile iletişime geçin.

cURL ile REST API Kullanarak PDF Sınıflandırma

SDK, bir REST API üzerinden çalışır, bu nedenle doğrudan cURL ile de çağırabilirsiniz. Aşağıda tipik adımlar yer almaktadır.

  1. Erişim belirteci alın
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
  1. PDF dosyasını yükle
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
        -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
        -F "file=@sample.pdf"
  1. Belgeyi sınıflandır
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'
  1. Sonucu indirin (gerekirse) - API doğrudan JSON döndürür; bir dosyaya yönlendirebilirsiniz.

Daha fazla ayrıntı için, resmi API belgelerine bakın.

.NET’te Kurulum ve Ayar

  1. NuGet paketini yükleyin
    dotnet add package GroupDocs.Classification-Cloud
    
  2. En son ikili dosyayı indirin (isteğe bağlı) release page adresinden.
  3. Geçici lisansınızı ekleyin (yalnızca geliştirme) lisans dosyasını kopyalayarak ve Configuration nesnesini kod örneğinde gösterildiği gibi başlatarak.
  4. Bağlantıyı doğrulayın - İstemcinin hizmete ulaşabildiğinden emin olmak için basit bir GetSupportedFileTypes çağrısı çalıştırın.

Using GroupDocs.Classification Cloud SDK for PDF Classification in .NET

SDK, HTTP işleme, serileştirme ve hata eşlemesini soyutlayarak iş mantığına odaklanmanızı sağlar. Şunları destekler:

  • Çoklu diller - API dil bağımsızdır; .NET istemcisi aynı sözleşmeyi izler.
  • Taksonomi‑tabanlı sınıflandırma - Kategorileri bir kez tanımlarsınız ve projeler arasında yeniden kullanırsınız.
  • Güven puanlaması - Her etiket bir güven değeri içerir, bu da eşik‑tabanlı filtrelemeyi mümkün kılar.

Bu özellikleri anlamak, sağlam bir PDF Sınıflandırma iş akışı tasarlamanıza yardımcı olur.

GroupDocs.Classification Cloud SDK Özellikleri Bu Görev İçin Önemli

  • Batch processing - Tek bir istek içinde binlerce PDF’i sınıflandırın.
  • OCR integration - Sınıflandırmadan önce taranmış PDF’lerden metni otomatik olarak çıkarın.
  • Custom taxonomy support - Alanınıza uygun JSON veya XML taksonomilerini yükleyin.
  • Detailed logging - Sorun giderme ve denetim izleri için istek kimliklerini alın.

Sınıflandırma Taksonomisi ve Güven Eşiği Yapılandırması

Kategorilerinizi tanımlayan bir taxonomy.json dosyası oluşturun:

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

ClassifyDocumentRequest oluştururken, belirsiz tahminleri filtrelemek için ConfidenceThreshold özelliğini (ör. 0.6) ayarlayın. Bu değeri, alanınızın yanlış pozitiflere toleransına göre ayarlayın.

Büyük PDF Toplu İşlemleri İçin Performans Optimizasyonu

  • Partiyi böl - Büyük koleksiyonları 100‑200 dosya gruplarına ayırarak zaman aşımını önleyin.
  • Asenkron işleme etkinleştir - SubmitJob uç noktasını kullanın ve GetJobStatus sorgulayarak iş parçacıklarını serbest bırakın.
  • Aynı taksonomiyi yeniden kullan - Taksonomiyi bir kez yükleyin ve tüm isteklerde aynı JSON dizesini yeniden kullanın.
  • Paralel yüklemeler - Task.WhenAll kullanarak dosyaları aynı anda yükleyin ve ağ gecikmesini azaltın.
SenaryoÖnerilen Yaklaşım
< 100 PDFsEşzamanlı tek istek
100‑1,000 PDFsParçalı eşzamanlı toplular
> 1,000 PDFsEşzamansız iş gönderimi + sorgulama

Tarama Yoluyla Oluşturulan PDF’lerin İşlenmesi ve OCR Entegrasyonu

Tarama yoluyla oluşturulan belgeler, seçilebilir metin yerine görüntüler içerir. Bunları sınıflandırmak için:

  1. İstek içinde ocr bayrağını true olarak ayarlayın.
  2. İsteğe bağlı olarak ocrLanguage belirtin (örneğin, İngilizce için "en").
  3. Servis, taksonomi kurallarını uygulamadan önce OCR’yi dahili olarak çalıştırır.

Bu iki adımlı süreç, yalnızca görüntü içeren PDF’lerin sınıflandırma için yerel PDF’ler gibi aynı şekilde ele alınmasını sağlar.

Ortak Sınıflandırma Hatalarının Giderilmesi

  • 401 Unauthorized - ClientId ve ClientSecret‘ın doğru olduğundan ve token isteğinin başarılı bir şekilde gerçekleştiğinden emin olun.
  • 400 Bad Request (Invalid Taxonomy) - Taksonomi JSON’ının doğru biçimlendirilmiş olduğundan emin olun; eksik köşeli parantezler bu hataya neden olur.
  • 404 Not Found (File ID) - Dosyanın başarıyla yüklendiğini ve fileId‘nin depolama yoluyla eşleştiğini doğrulayın.
  • Düşük güven puanları - Taksonomi anahtar kelimelerinizi gözden geçirin; daha temsilci terimler ekleyin veya eğitim setini artırın.

Hata kodlarının tam listesi için, API referansına bakın.

.NET’te PDF Sınıflandırma için En İyi Uygulamalar

  • Taksonomiyi küçük ve odaklı tutun - Çok fazla çakışan anahtar kelime doğruluğu azaltır.
  • Sürümlü taksonomi dosyalarını kullanın - Değişiklikleri izlemek için kaynak kontrolünde saklayın.
  • Uygun bir güven eşiği belirleyin - 0.6 ile başlayın ve doğrulama sonuçlarına göre ayarlayın.
  • İş durumunu izleyin - Performans analizı için istek kimliklerini ve yanıt sürelerini kaydedin.
  • Kimlik bilgilerini güvenli tutun - ClientId ve ClientSecret değerlerini ortam değişkenlerinde veya Azure Key Vault’ta saklayın.

Sonuç

.NET’te PDF dosyalarını sınıflandırmak, GroupDocs.Classification Cloud SDK for .NET ile çok daha basit hale gelir. Yukarıda açıklanan adımları izleyerek SDK’yı kurmak, net bir taksonomi tanımlamak, taranmış PDF’ler için OCR işlemek ve toplu performansı optimize etmek, herhangi bir belge‑yoğun uygulama için güvenilir, ölçeklenebilir bir sınıflandırma hizmeti oluşturmanızı sağlar. Üretim kullanımı için uygun bir lisans almayı unutmayın; ihtiyaçlarınız büyüdükçe geçici lisans sayfası üzerinden geçici bir lisansla başlayabilir ve tam bir aboneliğe yükseltebilirsiniz.

SSS

S: .NET’te PDF dosyalarını yüksek güvenle nasıl sınıflandırabilirim?
C: İsteğin içinde ConfidenceThreshold ayarlayarak düşük güvenilir sonuçları filtreleyin. SDK, her etiket için bir güven puanı döndürür; böylece seçtiğiniz seviyenin üzerindeki tahminleri tutabilirsiniz. Daha fazla ayrıntı için resmi dokümantasyona bakın.

S: SDK taranmış PDF’lerde OCR’ı destekliyor mu?
C: Evet. Sınıflandırma isteğinde ocr bayrağını ayarlayarak OCR’ı etkinleştirin. Hizmet, taksonomi uygulanmadan önce görüntü‑tabanlı PDF’lerden metni çıkarır ve taranmış belgeler için doğruluğu artırır.

Q: Binlerce PDF’yi işlemek için en iyi yol nedir?
A: Asenkron işler ile toplu sınıflandırma kullanın. Büyük setleri yönetilebilir parçalara bölün, SubmitJob aracılığıyla gönderin ve tamamlanana kadar GetJobStatus sorgulayın. Bu yaklaşım zaman aşımını önler ve verimliliği maksimize eder.

S: Geliştirme için geçici bir lisansı nereden alabilirim?
C: 30‑günlük lisans anahtarını oluşturmak için geçici lisans sayfasını ziyaret edin. API çağrıları yapmadan önce Configuration içinde uygulayın.

Daha Fazla Oku