Classificar arquivos PDF em .NET é essencial para automatizar fluxos de trabalho de documentos, extrair insights e direcionar conteúdo sem revisão manual. GroupDocs.Classification Cloud SDK for .NET fornece uma API poderosa que torna a classificação de PDF fácil e escalável. Neste tutorial você aprenderá um fluxo de trabalho completo de classificação de PDF, desde a configuração do projeto e da taxonomia até o processamento em lote, o tratamento de OCR para PDFs digitalizados e a otimização de desempenho, com exemplos de código prontos para executar.
Etapas para Classificar Arquivos PDF em .NET
- Adicionar o pacote NuGet - Execute
dotnet add package GroupDocs.Classification-Cloudpara incluir a biblioteca em seu projeto. - Criar e configurar o cliente da API - Inicialize
ClassificationApicom seu ID de cliente e segredo. - Carregar o PDF - Use o endpoint
UploadFilepara enviar o documento ao armazenamento na nuvem. - Definir a taxonomia - Forneça um arquivo JSON que mapeia categorias para palavras‑chave; isso orienta o mecanismo de classificação.
- Chamar o método de classificação - Invocar
ClassifyDocumentcom o ID do arquivo, a taxonomia e um limiar de confiança opcional. - Processar os resultados - Iterar sobre os objetos
ClassificationResult, verificando a propriedadeConfidencepara filtrar rótulos de baixa confiança.
Para mais detalhes sobre objetos de solicitação, veja a referência da API.
Classificar arquivos PDF de forma eficiente em .NET - Exemplo de código completo
O exemplo a seguir demonstra uma classificação completa de ponta a ponta de um único arquivo PDF, incluindo tratamento de erros e processamento de resultados.
Nota: Este exemplo de código demonstra a funcionalidade principal. Antes de usá‑lo em seu projeto, certifique‑se de atualizar os caminhos dos arquivos (
sample.pdf,taxonomy.json), substituir as credenciais de espaço reservado pelos seus reaisYOUR_CLIENT_IDeYOUR_CLIENT_SECRET, e testar minuciosamente em seu ambiente de desenvolvimento. Se encontrar algum problema, consulte a documentação oficial ou entre em contato com a equipe de suporte para obter assistência.
Classificação de PDF via API REST usando cURL
O SDK opera sobre uma API REST, portanto você também pode chamá‑la diretamente com cURL. Abaixo estão as etapas típicas.
- Obtenha um token de acesso
curl -X POST "https://api.groupdocs.cloud/v1.0/oauth2/token" \
-H "Content-Type: application/json" \
-d '{"client_id":"YOUR_CLIENT_ID","client_secret":"YOUR_CLIENT_SECRET","grant_type":"client_credentials"}'
- Carregue o arquivo PDF
curl -X POST "https://api.groupdocs.cloud/v1.0/storage/file/upload" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-F "file=@sample.pdf"
- Classificar o documento
curl -X POST "https://api.groupdocs.cloud/v1.0/classification/classify" \
-H "Authorization: Bearer YOUR_ACCESS_TOKEN" \
-H "Content-Type: application/json" \
-d '{
"fileId": "sample.pdf",
"taxonomy": "{\"categories\":[{\"name\":\"Invoice\",\"keywords\":[\"amount\",\"total\",\"invoice\"]}]}",
"confidenceThreshold": 0.6
}'
- Baixe o resultado (se necessário) - A API retorna JSON diretamente; você pode redirecioná‑lo para um arquivo.
Para mais detalhes, veja a documentação oficial da API.
Instalação e Configuração no .NET
- Instale o pacote NuGet
dotnet add package GroupDocs.Classification-Cloud - Baixe o binário mais recente (opcional) a partir da página de lançamentos.
- Adicione sua licença temporária (apenas para desenvolvimento) copiando o arquivo de licença e inicializando o objeto
Configurationconforme mostrado no exemplo de código. - Verifique a conectividade - Execute uma chamada simples
GetSupportedFileTypespara garantir que o cliente possa alcançar o serviço.
Usando GroupDocs.Classification Cloud SDK para classificação de PDF em .NET
O SDK abstrai o manuseio de HTTP, serialização e mapeamento de erros, permitindo que você se concentre na lógica de negócios. Ele suporta:
- Múltiplos idiomas - A API é independente de idioma; o cliente .NET segue o mesmo contrato.
- Classificação baseada em taxonomia - Você define categorias uma vez e as reutiliza em diferentes projetos.
- Pontuação de confiança - Cada rótulo inclui um valor de confiança, permitindo filtragem baseada em limiar.
Compreender esses recursos ajuda a projetar um fluxo de trabalho robusto de classificação de PDF.
Recursos do GroupDocs.Classification Cloud SDK que Importam para Esta Tarefa
- Processamento em lote - Classifique milhares de PDFs em uma única solicitação.
- Integração OCR - Extraia automaticamente o texto de PDFs digitalizados antes da classificação.
- Suporte a taxonomia personalizada - Faça upload de taxonomias JSON ou XML para corresponder ao seu domínio.
- Registro detalhado - Recupere IDs de solicitação para solução de problemas e trilhas de auditoria.
Configurando Taxonomia de Classificação e Limiares de Confiança
Crie um arquivo taxonomy.json que descreve suas categorias:
{
"categories": [
{
"name": "Invoice",
"keywords": ["invoice", "amount", "total", "due"]
},
{
"name": "Resume",
"keywords": ["experience", "education", "skills", "profile"]
}
]
}
Ao criar o ClassifyDocumentRequest, defina a propriedade ConfidenceThreshold (por exemplo, 0.6) para filtrar previsões incertas. Ajuste esse valor com base na tolerância do seu domínio a falsos positivos.
Otimizando o Desempenho para Grandes Lotes de PDF
- Divida o lote - Separe coleções grandes em grupos de 100‑200 arquivos para evitar time‑outs.
- Habilite o processamento assíncrono - Use o endpoint
SubmitJobe faça polling deGetJobStatuspara liberar threads. - Reutilize a mesma taxonomia - Carregue a taxonomia uma vez e reutilize a mesma string JSON para todas as solicitações.
- Uploads paralelos - Envie arquivos simultaneamente usando
Task.WhenAllpara reduzir a latência da rede.
| Cenário | Abordagem Recomendada |
|---|---|
| < 100 PDFs | Solicitação única síncrona |
| 100‑1.000 PDFs | Lotes síncronos em blocos |
| > 1,000 PDFs | Envio assíncrono de tarefa + polling |
Manipulação de PDFs Escaneados e Integração de OCR
Documentos escaneados contêm imagens em vez de texto selecionável. Para classificá‑los:
- Defina a flag
ocrcomotruena solicitação. - Opcionalmente, especifique
ocrLanguage(por exemplo,"en"para Inglês). - O serviço executa OCR internamente antes de aplicar as regras de taxonomia.
Esse processo de duas etapas garante que PDFs apenas de imagem sejam tratados da mesma forma que PDFs nativos para classificação.
Solucionando Erros Comuns de Classificação
- 401 Unauthorized - Verifique se
ClientIdeClientSecretestão corretos e se a solicitação de token foi bem‑sucedida. - 400 Bad Request (Invalid Taxonomy) - Certifique-se de que o JSON da taxonomia está bem‑formado; colchetes ausentes causam este erro.
- 404 Not Found (File ID) - Confirme se o arquivo foi enviado com sucesso e se o
fileIdcorresponde ao caminho de armazenamento. - Low confidence scores - Revise as palavras‑chave da sua taxonomia; adicione termos mais representativos ou aumente o conjunto de treinamento.
Para obter uma lista completa de códigos de erro, consulte a referência da API.
Melhores Práticas para Classificação de PDF em .NET
- Mantenha a taxonomia pequena e focada - Muitas palavras‑chave sobrepostas reduzem a precisão.
- Use arquivos de taxonomia versionados - Armazene‑os no controle de versão para acompanhar as alterações.
- Defina um limiar de confiança adequado - Comece com
0.6e ajuste com base nos resultados da validação. - Monitore o status do trabalho - Registre IDs de solicitação e tempos de resposta para análise de desempenho.
- Proteja as credenciais - Armazene
ClientIdeClientSecretem variáveis de ambiente ou no Azure Key Vault.
Conclusão
Classificar arquivos PDF em .NET torna‑se simples com o GroupDocs.Classification Cloud SDK for .NET. Seguindo as etapas descritas acima — configurar o SDK, definir uma taxonomia clara, lidar com OCR para PDFs digitalizados e otimizar o desempenho em lote — você pode criar um serviço de classificação confiável e escalável para qualquer aplicação intensiva em documentos. Lembre‑se de obter uma licença adequada para uso em produção; você pode começar com uma licença temporária na página de licença temporária e atualizar para uma assinatura completa conforme suas necessidades crescem.
Perguntas Frequentes
Q: Como posso classificar arquivos PDF no .NET com alta confiança?
A: Defina o ConfidenceThreshold na solicitação para filtrar resultados de baixa confiança. O SDK retorna uma pontuação de confiança para cada rótulo, permitindo que você mantenha apenas as previsões acima do nível escolhido. Consulte a documentação oficial para mais detalhes.
Q: O SDK suporta OCR para PDFs digitalizados?
A: Sim. Ative o OCR definindo a flag ocr na solicitação de classificação. O serviço extrai texto de PDFs baseados em imagem antes de aplicar a taxonomia, melhorando a precisão para documentos digitalizados.
Q: Qual é a melhor maneira de processar milhares de PDFs?
A: Use a classificação em lote com trabalhos assíncronos. Divida grandes conjuntos em partes gerenciáveis, envie‑os via SubmitJob e verifique GetJobStatus até a conclusão. Essa abordagem evita tempos limite e maximiza o rendimento.
Q: Onde posso obter uma licença temporária para desenvolvimento?
A: Visite a página de licença temporária para gerar uma chave de licença de 30‑dias. Aplique‑a na sua Configuration antes de fazer chamadas à API.
