Класифікація PDF‑файлів у .NET: підручник і приклад коду

Класифікація файлів PDF у .NET є важливою для автоматизації робочих процесів з документами, отримання інсайтів та маршрутизації контенту без ручного перегляду. GroupDocs.Classification Cloud SDK for .NET надає потужний API, який спрощує та масштабує класифікацію PDF. У цьому посібнику ви дізнаєтеся про повний процес класифікації PDF, від налаштування проєкту та конфігурації таксономії до пакетної обробки, обробки OCR для сканованих PDF та оптимізації продуктивності, з готовими до запуску прикладами коду.

Кроки для класифікації PDF‑файлів у .NET

Додайте пакет NuGet – Виконайте dotnet add package GroupDocs.Classification-Cloud, щоб включити бібліотеку у ваш проєкт.
Створіть і налаштуйте API‑клієнт – Ініціалізуйте ClassificationApi з вашим client ID та secret.
Завантажте PDF – Використайте endpoint UploadFile для надсилання документа в хмарне сховище.
Визначте таксономію – Надішліть файл JSON, який відображає категорії на ключові слова; це керує роботою движка класифікації.
Викличте метод класифікації – Використайте ClassifyDocument з ідентифікатором файлу, таксономією та необов’язковим порогом впевненості.
Обробіть результати – Пройдіться по об’єктах ClassificationResult, перевіряючи властивість Confidence для фільтрації міток з низькою впевненістю.

Для отримання докладнішої інформації про об’єкти запиту, перегляньте довідник API.

Класифікуйте PDF‑файли ефективно в .NET — повний приклад коду

Наступний приклад демонструє повну сквозну класифікацію одного PDF‑файлу, включаючи обробку помилок та обробку результатів.

Примітка: Цей приклад коду демонструє основну функціональність. Перш ніж використовувати його у вашому проєкті, переконайтеся, що оновили шляхи до файлів (sample.pdf, taxonomy.json), замінили заповнювачі облікових даних на ваші фактичні YOUR_CLIENT_ID та YOUR_CLIENT_SECRET, і ретельно протестували у вашому середовищі розробки. Якщо ви зіткнетеся з будь-якими проблемами, будь ласка, зверніться до офіційної документації або зв’яжіться з командою підтримки для отримання допомоги.

Класифікація PDF за допомогою REST API та cURL

SDK працює через REST API, тому ви також можете викликати його безпосередньо за допомогою cURL. Нижче наведено типові кроки.

Отримати токен доступу

curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
     -H "Content-Type: application/json" \
     -d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'

Завантажте PDF файл

curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
        -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
        -F "file=@sample.pdf"

Класифікувати документ

curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
     -H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
     -H "Content-Type: application/json" \
     -d '{
           "fileId": "sample.pdf",
           "taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
           "confidenceThreshold": 0.6
         }'

Завантажити результат (за потреби) - API повертає JSON безпосередньо; ви можете передати його у файл.

Для отримання докладнішої інформації перегляньте офіційну документацію API.

Встановлення та налаштування в .NET

Встановіть пакет NuGet

dotnet add package GroupDocs.Classification-Cloud

Завантажте останню бінарну версію (необов’язково) з сторінки випуску.
Додайте тимчасову ліцензію (лише для розробки), скопіювавши файл ліцензії та ініціалізувавши об’єкт Configuration, як показано у прикладі коду.
Перевірте підключення — запустіть простий виклик GetSupportedFileTypes, щоб переконатися, що клієнт може підключитися до сервісу.

Використання GroupDocs.Classification Cloud SDK для класифікації PDF у .NET

SDK абстрагує обробку HTTP, серіалізацію та відображення помилок, дозволяючи вам зосередитися на бізнес‑логіці. Він підтримує:

Кілька мов - API не залежить від мови; .NET‑клієнт дотримується того ж контракту.
Класифікація на основі таксономії - Ви визначаєте категорії один раз і повторно використовуєте їх у різних проектах.
Оцінка впевненості - Кожна мітка містить значення впевненості, що дозволяє фільтрування за порогом.

Розуміння цих функцій допомагає вам розробити надійний робочий процес класифікації PDF.

Функції GroupDocs.Classification Cloud SDK, які мають значення для цього завдання

Batch processing - Класифікуйте тисячі PDF у одному запиті.
OCR integration - Автоматично витягайте текст зі сканованих PDF перед класифікацією.
Custom taxonomy support - Завантажуйте JSON або XML таксономії, що відповідають вашому домену.
Detailed logging - Отримуйте ідентифікатори запитів для усунення неполадок та аудиту.

Налаштування таксономії класифікації та порогових значень довіри

Створіть файл taxonomy.json, який описує ваші категорії:

{
  "categories": [
    {
      "name": "Invoice",
      "keywords": ["invoice", "amount", "total", "due"]
    },
    {
      "name": "Resume",
      "keywords": ["experience", "education", "skills", "profile"]
    }
  ]
}

При створенні ClassifyDocumentRequest встановіть властивість ConfidenceThreshold (наприклад, 0.6), щоб відфільтрувати невизначені прогнози. Налаштуйте це значення відповідно до допустимості хибнопозитивних результатів у вашій галузі.

Оптимізація продуктивності для великих пакетів PDF

Розбивати пакет - Розділяйте великі колекції на групи по 100‑200 файлів, щоб уникнути тайм‑аутів.
Увімкнути асинхронну обробку - Використовуйте кінцеву точку SubmitJob і опитуйте GetJobStatus, щоб звільнити потоки.
Повторне використання тієї ж таксономії - Завантажте таксономію один раз і використовуйте той самий JSON‑рядок для всіх запитів.
Паралельне завантаження - Завантажуйте файли одночасно за допомогою Task.WhenAll, щоб зменшити затримку мережі.

Сценарій	Рекомендований підхід
< 100 PDFs	Синхронний одиночний запит
100‑1,000 PDFs	Пакетні синхронні батчі
> 1,000 PDFs	Асинхронна подача завдання + опитування

Обробка сканованих PDF та інтеграція OCR

Скановані документи містять зображення замість виділюваного тексту. Щоб їх класифікувати:

Встановіть прапорець ocr у значення true у запиті.
За бажанням вкажіть ocrLanguage (наприклад, "en" для англійської).
Служба виконує OCR внутрішньо перед застосуванням правил таксономії.

Цей двоетапний процес забезпечує, що PDF‑файли, що містять лише зображення, обробляються так само, як і рідні PDF‑файли, для класифікації.

Усунення поширених помилок класифікації

401 Unauthorized - Перевірте, чи ClientId і ClientSecret правильні і чи запит токена успішний.
400 Bad Request (Invalid Taxonomy) - Переконайтеся, що JSON таксономії правильно сформований; відсутність дужок викликає цю помилку.
404 Not Found (File ID) - Підтвердіть, що файл успішно завантажений і fileId відповідає шляху в сховищі.
Low confidence scores - Перегляньте ключові слова вашої таксономії; додайте більш репрезентативні терміни або збільшіть навчальний набір.

Для повного списку кодів помилок зверніться до довідка API.

Кращі практики класифікації PDF у .NET

Тримайте таксономію маленькою та сфокусованою - Надто багато перекриваючих ключових слів знижує точність.
Використовуйте версіоновані файли таксономії - Зберігайте їх у системі контролю версій, щоб відстежувати зміни.
Встановіть відповідний поріг довіри - Почніть з 0.6 і коригуйте на основі результатів валідації.
Контролюйте статус завдання - Логуйте ідентифікатори запитів та час відповіді для аналізу продуктивності.
Захищайте облікові дані - Зберігайте ClientId і ClientSecret у змінних середовища або Azure Key Vault.

Висновок

Класифікація PDF‑файлів у .NET стає простою завдяки GroupDocs.Classification Cloud SDK for .NET. Дотримуючись кроків, описаних вище, налаштування SDK, визначення чіткої таксономії, обробки OCR для сканованих PDF‑файлів та оптимізації пакетної продуктивності, ви можете створити надійний, масштабований сервіс класифікації для будь‑якого додатка, що працює з великою кількістю документів. Не забудьте отримати відповідну ліцензію для використання у продакшн; ви можете розпочати з тимчасової ліцензії на temporary license page і перейти на повну підписку, коли ваші потреби зростатимуть.

Часті запитання

П: Як я можу класифікувати PDF‑файли в .NET з високою впевненістю?
A: Встановіть ConfidenceThreshold у запиті, щоб відфільтрувати результати з низькою впевненістю. SDK повертає оцінку впевненості для кожної мітки, що дозволяє залишати лише прогнози, що перевищують обраний вами рівень. Дивіться офіційну документацію для отримання додаткової інформації.

Q: Чи підтримує SDK OCR для сканованих PDF?
A: Так. Увімкніть OCR, встановивши прапорець ocr у запиті класифікації. Сервіс витягує текст із PDF‑файлів, що містять зображення, перед застосуванням таксономії, підвищуючи точність для сканованих документів.

Q: Який найкращий спосіб обробляти тисячі PDF?
A: Використовуйте пакетну класифікацію з асинхронними завданнями. Розділіть великі набори на керовані частини, подайте їх за допомогою SubmitJob і опитуйте GetJobStatus до завершення. Такий підхід уникає тайм‑аутів і максимізує пропускну здатність.

Q: Де я можу отримати тимчасову ліцензію для розробки?
A: Відвідайте сторінку тимчасової ліцензії, щоб згенерувати 30‑денний ліцензійний ключ. Застосуйте його у вашій Configuration перед виконанням API‑викликів.

Класифікація PDF‑файлів у .NET: підручник і зразковий код

Кроки для класифікації PDF‑файлів у .NET

Класифікуйте PDF‑файли ефективно в .NET — повний приклад коду

Класифікація PDF за допомогою REST API та cURL

Встановлення та налаштування в .NET

Використання GroupDocs.Classification Cloud SDK для класифікації PDF у .NET

Функції GroupDocs.Classification Cloud SDK, які мають значення для цього завдання

Налаштування таксономії класифікації та порогових значень довіри

Оптимізація продуктивності для великих пакетів PDF

Обробка сканованих PDF та інтеграція OCR

Усунення поширених помилок класифікації

Кращі практики класифікації PDF у .NET

Висновок

Часті запитання

Read More

Кроки для класифікації PDF‑файлів у .NET#

Класифікуйте PDF‑файли ефективно в .NET — повний приклад коду#

Класифікація PDF за допомогою REST API та cURL#

Встановлення та налаштування в .NET#

Використання GroupDocs.Classification Cloud SDK для класифікації PDF у .NET#

Функції GroupDocs.Classification Cloud SDK, які мають значення для цього завдання#

Налаштування таксономії класифікації та порогових значень довіри#

Оптимізація продуктивності для великих пакетів PDF#

Обробка сканованих PDF та інтеграція OCR#

Усунення поширених помилок класифікації#

Кращі практики класифікації PDF у .NET#

Висновок#

Часті запитання#

Read More#

Кроки для класифікації PDF‑файлів у .NET

Класифікуйте PDF‑файли ефективно в .NET — повний приклад коду

Класифікація PDF за допомогою REST API та cURL

Встановлення та налаштування в .NET

Використання GroupDocs.Classification Cloud SDK для класифікації PDF у .NET

Функції GroupDocs.Classification Cloud SDK, які мають значення для цього завдання

Налаштування таксономії класифікації та порогових значень довіри

Оптимізація продуктивності для великих пакетів PDF

Обробка сканованих PDF та інтеграція OCR

Усунення поширених помилок класифікації

Кращі практики класифікації PDF у .NET

Висновок

Часті запитання

Read More