Mengklasifikasikan file PDF di .NET sangat penting untuk mengotomatiskan alur kerja dokumen, mengekstrak wawasan, dan mengarahkan konten tanpa tinjauan manual. GroupDocs.Classification Cloud SDK for .NET menyediakan API yang kuat yang memudahkan klasifikasi PDF secara mudah dan skalabel. Dalam tutorial ini Anda akan mempelajari alur kerja Klasifikasi PDF lengkap, mulai dari penyiapan proyek dan konfigurasi taksonomi hingga pemrosesan batch, penanganan OCR untuk PDF yang dipindai, dan penyetelan kinerja, dengan contoh kode siap‑jalankan.
Langkah-langkah Mengklasifikasikan File PDF di .NET
- Tambahkan paket NuGet - Jalankan
dotnet add package GroupDocs.Classification-Clouduntuk menyertakan pustaka dalam proyek Anda. - Buat dan konfigurasikan klien API - Inisialisasi
ClassificationApidengan ID klien dan rahasia Anda. - Unggah PDF - Gunakan endpoint
UploadFileuntuk mengirim dokumen ke penyimpanan cloud. - Tentukan taksonomi - Sediakan file JSON yang memetakan kategori ke kata kunci; ini memandu mesin klasifikasi.
- Panggil metode klasifikasi - Panggil
ClassifyDocumentdengan ID file, taksonomi, dan ambang batas kepercayaan opsional. - Proses hasil - Iterasi objek
ClassificationResult, memeriksa propertiConfidenceuntuk menyaring label dengan kepercayaan rendah.
Untuk detail lebih lanjut tentang objek permintaan, lihat referensi API.
Klasifikasikan File PDF Secara Efisien di .NET - Contoh Kode Lengkap
Contoh berikut menunjukkan klasifikasi end‑to‑end penuh dari satu file PDF, termasuk penanganan kesalahan dan pemrosesan hasil.
Catatan: Contoh kode ini menunjukkan fungsi inti. Sebelum menggunakannya dalam proyek Anda, pastikan untuk memperbarui jalur file (
sample.pdf,taxonomy.json), mengganti kredensial placeholder denganYOUR_CLIENT_IDdanYOUR_CLIENT_SECRETyang sebenarnya, dan melakukan pengujian secara menyeluruh di lingkungan pengembangan Anda. Jika Anda mengalami masalah, silakan merujuk ke dokumentasi resmi atau hubungi tim dukungan untuk bantuan.
Klasifikasi PDF via REST API menggunakan cURL
SDK beroperasi melalui REST API, sehingga Anda juga dapat memanggilnya secara langsung dengan cURL. Berikut adalah langkah‑langkah umum.
- Dapatkan token akses
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Unggah file PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Klasifikasikan dokumen
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Unduh hasil (jika diperlukan) - API mengembalikan JSON secara langsung; Anda dapat mengarahkannya ke file.
Untuk detail lebih lanjut, lihat dokumentasi API resmi.
Instalasi dan Penyiapan di .NET
- Instal paket NuGet
dotnet add package GroupDocs.Classification-Cloud - Unduh binary terbaru (opsional) dari halaman rilis.
- Tambahkan lisensi sementara Anda (hanya untuk pengembangan) dengan menyalin file lisensi dan menginisialisasi objek
Configurationseperti yang ditunjukkan dalam contoh kode. - Verifikasi konektivitas - Jalankan panggilan
GetSupportedFileTypessederhana untuk memastikan klien dapat menjangkau layanan.
Menggunakan GroupDocs.Classification Cloud SDK untuk Klasifikasi PDF di .NET
SDK menyembunyikan penanganan HTTP, serialisasi, dan pemetaan kesalahan, memungkinkan Anda fokus pada logika bisnis. Ini mendukung:
- Beberapa bahasa - API bersifat agnostik bahasa; klien .NET mengikuti kontrak yang sama.
- Klasifikasi berbasis taksonomi - Anda mendefinisikan kategori sekali dan menggunakannya kembali di seluruh proyek.
- Penilaian kepercayaan - Setiap label menyertakan nilai kepercayaan, memungkinkan penyaringan berbasis ambang.
Memahami fitur-fitur ini membantu Anda merancang alur kerja Klasifikasi PDF yang kuat.
Fitur SDK GroupDocs.Classification Cloud yang Penting untuk Tugas Ini
- Pemrosesan batch - Klasifikasikan ribuan PDF dalam satu permintaan.
- Integrasi OCR - Secara otomatis mengekstrak teks dari PDF yang dipindai sebelum klasifikasi.
- Dukungan taksonomi khusus - Unggah taksonomi JSON atau XML untuk menyesuaikan dengan domain Anda.
- Pencatatan terperinci - Dapatkan ID permintaan untuk pemecahan masalah dan jejak audit.
Mengonfigurasi Taksonomi Klasifikasi dan Ambang Kepercayaan
Buat file taxonomy.json yang menjelaskan kategori Anda:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
Saat membangun ClassifyDocumentRequest, atur properti ConfidenceThreshold (misalnya, 0.6) untuk menyaring prediksi yang tidak pasti. Sesuaikan nilai ini berdasarkan toleransi domain Anda terhadap positif palsu.
Mengoptimalkan Kinerja untuk Batch PDF Besar
- Bagi batch - Bagi koleksi besar menjadi grup berisi 100‑200 file untuk menghindari time‑out.
- Aktifkan pemrosesan async - Gunakan endpoint
SubmitJobdan pollingGetJobStatusuntuk membebaskan thread. - Gunakan kembali taksonomi yang sama - Muat taksonomi sekali dan gunakan kembali string JSON yang sama untuk semua permintaan.
- Unggah paralel - Unggah file secara bersamaan menggunakan
Task.WhenAlluntuk mengurangi latensi jaringan.
| Skenario | Pendekatan yang Direkomendasikan |
|---|---|
| < 100 PDFs | Permintaan tunggal sinkron |
| 100‑1,000 PDFs | Batch sinkron berpotongan |
| > 1,000 PDFs | Pengajuan pekerjaan asinkron + polling |
Menangani PDF yang Dipindai dan Integrasi OCR
Dokumen yang dipindai berisi gambar alih-alih teks yang dapat dipilih. Untuk mengklasifikasikannya:
- Atur flag
ocrmenjaditruedalam permintaan. - Secara opsional tentukan
ocrLanguage(misalnya,"en"untuk Bahasa Inggris). - Layanan menjalankan OCR secara internal sebelum menerapkan aturan taksonomi.
Proses dua langkah ini memastikan bahwa PDF yang hanya berisi gambar diperlakukan sama seperti PDF asli untuk klasifikasi.
Memecahkan Masalah Kesalahan Klasifikasi Umum
- 401 Unauthorized - Verifikasi bahwa
ClientIddanClientSecretsudah benar dan permintaan token berhasil. - 400 Bad Request (Invalid Taxonomy) - Pastikan JSON taksonomi terbentuk dengan baik; tanda kurung yang hilang menyebabkan kesalahan ini.
- 404 Not Found (File ID) - Pastikan file telah diunggah dengan sukses dan
fileIdcocok dengan jalur penyimpanan. - Low confidence scores - Tinjau kata kunci taksonomi Anda; tambahkan istilah yang lebih representatif atau tingkatkan set pelatihan.
Untuk daftar lengkap kode error, lihat Referensi API.
Praktik Terbaik untuk Klasifikasi PDF di .NET
- Pertahankan taksonomi kecil dan terfokus - Terlalu banyak kata kunci yang tumpang tindih mengurangi akurasi.
- Gunakan file taksonomi berversi - Simpan di kontrol sumber untuk melacak perubahan.
- Tetapkan ambang kepercayaan yang tepat - Mulai dengan
0.6dan sesuaikan berdasarkan hasil validasi. - Pantau status pekerjaan - Catat ID permintaan dan waktu respons untuk analisis kinerja.
- Amankan kredensial - Simpan
ClientIddanClientSecretdalam variabel lingkungan atau Azure Key Vault.
Kesimpulan
Mengklasifikasikan file PDF di .NET menjadi sederhana dengan GroupDocs.Classification Cloud SDK for .NET. Dengan mengikuti langkah‑langkah yang dijelaskan di atas—menyiapkan SDK, mendefinisikan taksonomi yang jelas, menangani OCR untuk PDF yang dipindai, dan mengoptimalkan kinerja batch—Anda dapat membangun layanan klasifikasi yang handal dan skalabel untuk aplikasi yang intensif dokumen. Ingatlah untuk memperoleh lisensi yang tepat untuk penggunaan produksi; Anda dapat memulai dengan lisensi sementara dari halaman lisensi sementara dan meningkatkan ke langganan penuh seiring kebutuhan Anda berkembang.
FAQs
Q: Bagaimana cara mengklasifikasikan file PDF di .NET dengan kepercayaan tinggi?
A: Setel ConfidenceThreshold dalam permintaan untuk menyaring hasil dengan kepercayaan rendah. SDK mengembalikan skor kepercayaan untuk setiap label, memungkinkan Anda hanya menyimpan prediksi di atas tingkat yang Anda pilih. Lihat dokumentasi resmi untuk detail lebih lanjut.
Q: Apakah SDK mendukung OCR untuk PDF yang dipindai?
A: Ya. Aktifkan OCR dengan mengatur flag ocr dalam permintaan klasifikasi. Layanan mengekstrak teks dari PDF berbasis gambar sebelum menerapkan taksonomi, meningkatkan akurasi untuk dokumen yang dipindai.
Q: Apa cara terbaik untuk memproses ribuan PDF?
A: Gunakan klasifikasi batch dengan pekerjaan asinkron. Bagi kumpulan besar menjadi potongan yang dapat dikelola, kirimkan melalui SubmitJob, dan lakukan polling GetJobStatus hingga selesai. Pendekatan ini menghindari batas waktu dan memaksimalkan throughput.
Q: Di mana saya dapat mendapatkan lisensi sementara untuk pengembangan?
A: Kunjungi halaman lisensi sementara untuk menghasilkan kunci lisensi selama 30 hari. Terapkan di Configuration Anda sebelum melakukan panggilan API.
