Mengklasifikasikan file PDF di .NET sangat penting untuk mengotomatiskan alur kerja dokumen, mengekstrak wawasan, dan mengarahkan konten tanpa tinjauan manual. GroupDocs.Classification Cloud SDK for .NET menyediakan API yang kuat yang memudahkan klasifikasi PDF secara mudah dan skalabel. Dalam tutorial ini Anda akan mempelajari alur kerja Klasifikasi PDF lengkap, mulai dari penyiapan proyek dan konfigurasi taksonomi hingga pemrosesan batch, penanganan OCR untuk PDF yang dipindai, dan penyetelan kinerja, dengan contoh kode siap‑jalankan.

Langkah-langkah Mengklasifikasikan File PDF di .NET

  1. Tambahkan paket NuGet - Jalankan dotnet add package GroupDocs.Classification-Cloud untuk menyertakan pustaka dalam proyek Anda.
  2. Buat dan konfigurasikan klien API - Inisialisasi ClassificationApi dengan ID klien dan rahasia Anda.
  3. Unggah PDF - Gunakan endpoint UploadFile untuk mengirim dokumen ke penyimpanan cloud.
  4. Tentukan taksonomi - Sediakan file JSON yang memetakan kategori ke kata kunci; ini memandu mesin klasifikasi.
  5. Panggil metode klasifikasi - Panggil ClassifyDocument dengan ID file, taksonomi, dan ambang batas kepercayaan opsional.
  6. Proses hasil - Iterasi objek ClassificationResult, memeriksa properti Confidence untuk menyaring label dengan kepercayaan rendah.

Untuk detail lebih lanjut tentang objek permintaan, lihat referensi API.

Klasifikasikan File PDF Secara Efisien di .NET - Contoh Kode Lengkap

Contoh berikut menunjukkan klasifikasi end‑to‑end penuh dari satu file PDF, termasuk penanganan kesalahan dan pemrosesan hasil.

Catatan: Contoh kode ini menunjukkan fungsi inti. Sebelum menggunakannya dalam proyek Anda, pastikan untuk memperbarui jalur file (sample.pdf, taxonomy.json), mengganti kredensial placeholder dengan YOUR_CLIENT_ID dan YOUR_CLIENT_SECRET yang sebenarnya, dan melakukan pengujian secara menyeluruh di lingkungan pengembangan Anda. Jika Anda mengalami masalah, silakan merujuk ke dokumentasi resmi atau hubungi tim dukungan untuk bantuan.

Klasifikasi PDF via REST API menggunakan cURL

SDK beroperasi melalui REST API, sehingga Anda juga dapat memanggilnya secara langsung dengan cURL. Berikut adalah langkah‑langkah umum.

  1. Dapatkan token akses
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
  1. Unggah file PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -F "file=@sample.pdf"
  1. Klasifikasikan dokumen
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'
  1. Unduh hasil (jika diperlukan) - API mengembalikan JSON secara langsung; Anda dapat mengarahkannya ke file.

Untuk detail lebih lanjut, lihat dokumentasi API resmi.

Instalasi dan Penyiapan di .NET

  1. Instal paket NuGet
    dotnet add package GroupDocs.Classification-Cloud
    
  2. Unduh binary terbaru (opsional) dari halaman rilis.
  3. Tambahkan lisensi sementara Anda (hanya untuk pengembangan) dengan menyalin file lisensi dan menginisialisasi objek Configuration seperti yang ditunjukkan dalam contoh kode.
  4. Verifikasi konektivitas - Jalankan panggilan GetSupportedFileTypes sederhana untuk memastikan klien dapat menjangkau layanan.

Menggunakan GroupDocs.Classification Cloud SDK untuk Klasifikasi PDF di .NET

SDK menyembunyikan penanganan HTTP, serialisasi, dan pemetaan kesalahan, memungkinkan Anda fokus pada logika bisnis. Ini mendukung:

  • Beberapa bahasa - API bersifat agnostik bahasa; klien .NET mengikuti kontrak yang sama.
  • Klasifikasi berbasis taksonomi - Anda mendefinisikan kategori sekali dan menggunakannya kembali di seluruh proyek.
  • Penilaian kepercayaan - Setiap label menyertakan nilai kepercayaan, memungkinkan penyaringan berbasis ambang.

Memahami fitur-fitur ini membantu Anda merancang alur kerja Klasifikasi PDF yang kuat.

Fitur SDK GroupDocs.Classification Cloud yang Penting untuk Tugas Ini

  • Pemrosesan batch - Klasifikasikan ribuan PDF dalam satu permintaan.
  • Integrasi OCR - Secara otomatis mengekstrak teks dari PDF yang dipindai sebelum klasifikasi.
  • Dukungan taksonomi khusus - Unggah taksonomi JSON atau XML untuk menyesuaikan dengan domain Anda.
  • Pencatatan terperinci - Dapatkan ID permintaan untuk pemecahan masalah dan jejak audit.

Mengonfigurasi Taksonomi Klasifikasi dan Ambang Kepercayaan

Buat file taxonomy.json yang menjelaskan kategori Anda:

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

Saat membangun ClassifyDocumentRequest, atur properti ConfidenceThreshold (misalnya, 0.6) untuk menyaring prediksi yang tidak pasti. Sesuaikan nilai ini berdasarkan toleransi domain Anda terhadap positif palsu.

Mengoptimalkan Kinerja untuk Batch PDF Besar

  • Bagi batch - Bagi koleksi besar menjadi grup berisi 100‑200 file untuk menghindari time‑out.
  • Aktifkan pemrosesan async - Gunakan endpoint SubmitJob dan polling GetJobStatus untuk membebaskan thread.
  • Gunakan kembali taksonomi yang sama - Muat taksonomi sekali dan gunakan kembali string JSON yang sama untuk semua permintaan.
  • Unggah paralel - Unggah file secara bersamaan menggunakan Task.WhenAll untuk mengurangi latensi jaringan.
SkenarioPendekatan yang Direkomendasikan
< 100 PDFsPermintaan tunggal sinkron
100‑1,000 PDFsBatch sinkron berpotongan
> 1,000 PDFsPengajuan pekerjaan asinkron + polling

Menangani PDF yang Dipindai dan Integrasi OCR

Dokumen yang dipindai berisi gambar alih-alih teks yang dapat dipilih. Untuk mengklasifikasikannya:

  1. Atur flag ocr menjadi true dalam permintaan.
  2. Secara opsional tentukan ocrLanguage (misalnya, "en" untuk Bahasa Inggris).
  3. Layanan menjalankan OCR secara internal sebelum menerapkan aturan taksonomi.

Proses dua langkah ini memastikan bahwa PDF yang hanya berisi gambar diperlakukan sama seperti PDF asli untuk klasifikasi.

Memecahkan Masalah Kesalahan Klasifikasi Umum

  • 401 Unauthorized - Verifikasi bahwa ClientId dan ClientSecret sudah benar dan permintaan token berhasil.
  • 400 Bad Request (Invalid Taxonomy) - Pastikan JSON taksonomi terbentuk dengan baik; tanda kurung yang hilang menyebabkan kesalahan ini.
  • 404 Not Found (File ID) - Pastikan file telah diunggah dengan sukses dan fileId cocok dengan jalur penyimpanan.
  • Low confidence scores - Tinjau kata kunci taksonomi Anda; tambahkan istilah yang lebih representatif atau tingkatkan set pelatihan.

Untuk daftar lengkap kode error, lihat Referensi API.

Praktik Terbaik untuk Klasifikasi PDF di .NET

  • Pertahankan taksonomi kecil dan terfokus - Terlalu banyak kata kunci yang tumpang tindih mengurangi akurasi.
  • Gunakan file taksonomi berversi - Simpan di kontrol sumber untuk melacak perubahan.
  • Tetapkan ambang kepercayaan yang tepat - Mulai dengan 0.6 dan sesuaikan berdasarkan hasil validasi.
  • Pantau status pekerjaan - Catat ID permintaan dan waktu respons untuk analisis kinerja.
  • Amankan kredensial - Simpan ClientId dan ClientSecret dalam variabel lingkungan atau Azure Key Vault.

Kesimpulan

Mengklasifikasikan file PDF di .NET menjadi sederhana dengan GroupDocs.Classification Cloud SDK for .NET. Dengan mengikuti langkah‑langkah yang dijelaskan di atas—menyiapkan SDK, mendefinisikan taksonomi yang jelas, menangani OCR untuk PDF yang dipindai, dan mengoptimalkan kinerja batch—Anda dapat membangun layanan klasifikasi yang handal dan skalabel untuk aplikasi yang intensif dokumen. Ingatlah untuk memperoleh lisensi yang tepat untuk penggunaan produksi; Anda dapat memulai dengan lisensi sementara dari halaman lisensi sementara dan meningkatkan ke langganan penuh seiring kebutuhan Anda berkembang.

FAQs

Q: Bagaimana cara mengklasifikasikan file PDF di .NET dengan kepercayaan tinggi?
A: Setel ConfidenceThreshold dalam permintaan untuk menyaring hasil dengan kepercayaan rendah. SDK mengembalikan skor kepercayaan untuk setiap label, memungkinkan Anda hanya menyimpan prediksi di atas tingkat yang Anda pilih. Lihat dokumentasi resmi untuk detail lebih lanjut.

Q: Apakah SDK mendukung OCR untuk PDF yang dipindai?
A: Ya. Aktifkan OCR dengan mengatur flag ocr dalam permintaan klasifikasi. Layanan mengekstrak teks dari PDF berbasis gambar sebelum menerapkan taksonomi, meningkatkan akurasi untuk dokumen yang dipindai.

Q: Apa cara terbaik untuk memproses ribuan PDF?
A: Gunakan klasifikasi batch dengan pekerjaan asinkron. Bagi kumpulan besar menjadi potongan yang dapat dikelola, kirimkan melalui SubmitJob, dan lakukan polling GetJobStatus hingga selesai. Pendekatan ini menghindari batas waktu dan memaksimalkan throughput.

Q: Di mana saya dapat mendapatkan lisensi sementara untuk pengembangan?
A: Kunjungi halaman lisensi sementara untuk menghasilkan kunci lisensi selama 30 hari. Terapkan di Configuration Anda sebelum melakukan panggilan API.

Read More