Класифікація файлів PDF у .NET є важливою для автоматизації робочих процесів з документами, отримання інсайтів та маршрутизації контенту без ручного перегляду. GroupDocs.Classification Cloud SDK for .NET надає потужний API, який спрощує та масштабує класифікацію PDF. У цьому посібнику ви дізнаєтеся про повний процес класифікації PDF, від налаштування проєкту та конфігурації таксономії до пакетної обробки, обробки OCR для сканованих PDF та оптимізації продуктивності, з готовими до запуску прикладами коду.
Кроки для класифікації PDF‑файлів у .NET
- Додайте пакет NuGet – Виконайте
dotnet add package GroupDocs.Classification-Cloud, щоб включити бібліотеку у ваш проєкт. - Створіть і налаштуйте API‑клієнт – Ініціалізуйте
ClassificationApiз вашим client ID та secret. - Завантажте PDF – Використайте endpoint
UploadFileдля надсилання документа в хмарне сховище. - Визначте таксономію – Надішліть файл JSON, який відображає категорії на ключові слова; це керує роботою движка класифікації.
- Викличте метод класифікації – Використайте
ClassifyDocumentз ідентифікатором файлу, таксономією та необов’язковим порогом впевненості. - Обробіть результати – Пройдіться по об’єктах
ClassificationResult, перевіряючи властивістьConfidenceдля фільтрації міток з низькою впевненістю.
Для отримання докладнішої інформації про об’єкти запиту, перегляньте довідник API.
Класифікуйте PDF‑файли ефективно в .NET — повний приклад коду
Наступний приклад демонструє повну сквозну класифікацію одного PDF‑файлу, включаючи обробку помилок та обробку результатів.
Примітка: Цей приклад коду демонструє основну функціональність. Перш ніж використовувати його у вашому проєкті, переконайтеся, що оновили шляхи до файлів (
sample.pdf,taxonomy.json), замінили заповнювачі облікових даних на ваші фактичніYOUR_CLIENT_IDтаYOUR_CLIENT_SECRET, і ретельно протестували у вашому середовищі розробки. Якщо ви зіткнетеся з будь-якими проблемами, будь ласка, зверніться до офіційної документації або зв’яжіться з командою підтримки для отримання допомоги.
Класифікація PDF за допомогою REST API та cURL
SDK працює через REST API, тому ви також можете викликати його безпосередньо за допомогою cURL. Нижче наведено типові кроки.
- Отримати токен доступу
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Завантажте PDF файл
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Класифікувати документ
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Завантажити результат (за потреби) - API повертає JSON безпосередньо; ви можете передати його у файл.
Для отримання докладнішої інформації перегляньте офіційну документацію API.
Встановлення та налаштування в .NET
- Встановіть пакет NuGet
dotnet add package GroupDocs.Classification-Cloud - Завантажте останню бінарну версію (необов’язково) з сторінки випуску.
- Додайте тимчасову ліцензію (лише для розробки), скопіювавши файл ліцензії та ініціалізувавши об’єкт
Configuration, як показано у прикладі коду. - Перевірте підключення — запустіть простий виклик
GetSupportedFileTypes, щоб переконатися, що клієнт може підключитися до сервісу.
Використання GroupDocs.Classification Cloud SDK для класифікації PDF у .NET
SDK абстрагує обробку HTTP, серіалізацію та відображення помилок, дозволяючи вам зосередитися на бізнес‑логіці. Він підтримує:
- Кілька мов - API не залежить від мови; .NET‑клієнт дотримується того ж контракту.
- Класифікація на основі таксономії - Ви визначаєте категорії один раз і повторно використовуєте їх у різних проектах.
- Оцінка впевненості - Кожна мітка містить значення впевненості, що дозволяє фільтрування за порогом.
Розуміння цих функцій допомагає вам розробити надійний робочий процес класифікації PDF.
Функції GroupDocs.Classification Cloud SDK, які мають значення для цього завдання
- Batch processing - Класифікуйте тисячі PDF у одному запиті.
- OCR integration - Автоматично витягайте текст зі сканованих PDF перед класифікацією.
- Custom taxonomy support - Завантажуйте JSON або XML таксономії, що відповідають вашому домену.
- Detailed logging - Отримуйте ідентифікатори запитів для усунення неполадок та аудиту.
Налаштування таксономії класифікації та порогових значень довіри
Створіть файл taxonomy.json, який описує ваші категорії:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
При створенні ClassifyDocumentRequest встановіть властивість ConfidenceThreshold (наприклад, 0.6), щоб відфільтрувати невизначені прогнози. Налаштуйте це значення відповідно до допустимості хибнопозитивних результатів у вашій галузі.
Оптимізація продуктивності для великих пакетів PDF
- Розбивати пакет - Розділяйте великі колекції на групи по 100‑200 файлів, щоб уникнути тайм‑аутів.
- Увімкнути асинхронну обробку - Використовуйте кінцеву точку
SubmitJobі опитуйтеGetJobStatus, щоб звільнити потоки. - Повторне використання тієї ж таксономії - Завантажте таксономію один раз і використовуйте той самий JSON‑рядок для всіх запитів.
- Паралельне завантаження - Завантажуйте файли одночасно за допомогою
Task.WhenAll, щоб зменшити затримку мережі.
| Сценарій | Рекомендований підхід |
|---|---|
| < 100 PDFs | Синхронний одиночний запит |
| 100‑1,000 PDFs | Пакетні синхронні батчі |
| > 1,000 PDFs | Асинхронна подача завдання + опитування |
Обробка сканованих PDF та інтеграція OCR
Скановані документи містять зображення замість виділюваного тексту. Щоб їх класифікувати:
- Встановіть прапорець
ocrу значенняtrueу запиті. - За бажанням вкажіть
ocrLanguage(наприклад,"en"для англійської). - Служба виконує OCR внутрішньо перед застосуванням правил таксономії.
Цей двоетапний процес забезпечує, що PDF‑файли, що містять лише зображення, обробляються так само, як і рідні PDF‑файли, для класифікації.
Усунення поширених помилок класифікації
- 401 Unauthorized - Перевірте, чи
ClientIdіClientSecretправильні і чи запит токена успішний. - 400 Bad Request (Invalid Taxonomy) - Переконайтеся, що JSON таксономії правильно сформований; відсутність дужок викликає цю помилку.
- 404 Not Found (File ID) - Підтвердіть, що файл успішно завантажений і
fileIdвідповідає шляху в сховищі. - Low confidence scores - Перегляньте ключові слова вашої таксономії; додайте більш репрезентативні терміни або збільшіть навчальний набір.
Для повного списку кодів помилок зверніться до довідка API.
Кращі практики класифікації PDF у .NET
- Тримайте таксономію маленькою та сфокусованою - Надто багато перекриваючих ключових слів знижує точність.
- Використовуйте версіоновані файли таксономії - Зберігайте їх у системі контролю версій, щоб відстежувати зміни.
- Встановіть відповідний поріг довіри - Почніть з
0.6і коригуйте на основі результатів валідації. - Контролюйте статус завдання - Логуйте ідентифікатори запитів та час відповіді для аналізу продуктивності.
- Захищайте облікові дані - Зберігайте
ClientIdіClientSecretу змінних середовища або Azure Key Vault.
Висновок
Класифікація PDF‑файлів у .NET стає простою завдяки GroupDocs.Classification Cloud SDK for .NET. Дотримуючись кроків, описаних вище, налаштування SDK, визначення чіткої таксономії, обробки OCR для сканованих PDF‑файлів та оптимізації пакетної продуктивності, ви можете створити надійний, масштабований сервіс класифікації для будь‑якого додатка, що працює з великою кількістю документів. Не забудьте отримати відповідну ліцензію для використання у продакшн; ви можете розпочати з тимчасової ліцензії на temporary license page і перейти на повну підписку, коли ваші потреби зростатимуть.
Часті запитання
П: Як я можу класифікувати PDF‑файли в .NET з високою впевненістю?
A: Встановіть ConfidenceThreshold у запиті, щоб відфільтрувати результати з низькою впевненістю. SDK повертає оцінку впевненості для кожної мітки, що дозволяє залишати лише прогнози, що перевищують обраний вами рівень. Дивіться офіційну документацію для отримання додаткової інформації.
Q: Чи підтримує SDK OCR для сканованих PDF?
A: Так. Увімкніть OCR, встановивши прапорець ocr у запиті класифікації. Сервіс витягує текст із PDF‑файлів, що містять зображення, перед застосуванням таксономії, підвищуючи точність для сканованих документів.
Q: Який найкращий спосіб обробляти тисячі PDF?
A: Використовуйте пакетну класифікацію з асинхронними завданнями. Розділіть великі набори на керовані частини, подайте їх за допомогою SubmitJob і опитуйте GetJobStatus до завершення. Такий підхід уникає тайм‑аутів і максимізує пропускну здатність.
Q: Де я можу отримати тимчасову ліцензію для розробки?
A: Відвідайте сторінку тимчасової ліцензії, щоб згенерувати 30‑денний ліцензійний ключ. Застосуйте його у вашій Configuration перед виконанням API‑викликів.
