Analisar documentos para extrair texto, imagens e informações do documento

O GroupDocs está saindo para compartilhar a primeira versão do GroupDocs.Parser Cloud. É uma solução de API REST independente de plataforma pronta para uso para analisar e extrair dados de todos os formatos de arquivo de negócios comuns sem depender de nenhuma ferramenta ou plug-in de terceiros. Os desenvolvedores podem integrá-lo a seus aplicativos da Web, desktop, dispositivos móveis ou nuvem sem nenhuma grande curva de aprendizado, pois pode ser usado em qualquer plataforma ou linguagem que suporte REST.

O que é GroupDocs.Parser Cloud?

Suponha que você esteja desenvolvendo um sistema de gerenciamento de documentos e precise de um recurso para pesquisa ou análise de texto. Não seria ótimo se seu sistema pudesse ler ou analisar uma ampla variedade de tipos de documentos sem instalar o leitor de documentos relacionado?

GroupDocs.Parser Cloud realiza o propósito acima mencionado. É uma API REST de extração de dados de documentos que suporta mais de 50 tipos de documentos. Um dos recursos mais valiosos do GroupDocs.Parser Cloud é a análise de documentos com modelos predefinidos. É fácil definir um modelo e extrair dados de documentos comerciais, por exemplo, faturas, recibos, cotações, cartas, etc. Não se limita à extração de texto, mas você também pode extrair imagens dos tipos de documentos suportados. A API pode ser usada não apenas com documentos comuns, mas também com contêineres como arquivos ZIP, arquivos de dados de e-mail OST/PST e portfólios PDF. Reserve algum tempo e visite notas de lançamento de um primeiro lançamento público para obter uma lista completa de seus recursos.

Como funciona?

Você pode usar os recursos do GroupDocs.Parser Cloud em seu aplicativo de duas maneiras. Use-o por meio de algum cliente REST ou use nosso SDK diretamente em sua linguagem de programação favorita. Você pode encontrar uma lista completa de SDKs do repositório GroupDocs.Parser Github.

Aqui, demonstrarei a funcionalidade do GroupDocs.Parser Cloud analisando um documento do Word com um modelo predefinido. Estou usando um cliente REST; cURL uma ferramenta de linha de comando.

Em primeiro lugar, antes de prosseguir, inscreva-se com groupdocs.cloud e obtenha o SID do aplicativo e a chave do aplicativo para autenticar suas chamadas de API restantes.

Criar modelo

Conforme compartilhado acima, GroupDocs.Parser Cloud permite que os usuários analisem documentos com modelos predefinidos para extrair dados do documento. Criaremos um modelo para seguir o documento do Word e salvaremos no armazenamento padrão.

Aqui vamos nós, siga estas etapas para criar um modelo simples:

Exemplo de cURL:

· Obter token de acesso

· Criar modelo

// Primeiro obtenha o token de acesso
// Obtenha a chave do aplicativo e o SID do aplicativo em https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Criar modelo para análise e salvar no armazenamento padrão do GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Analisar Documento

Agora vamos analisar o documento do Word usando o modelo predefinido do armazenamento, gerado acima. O modelo pode ser fornecido como um objeto ou caminho de armazenamento, verifique o documento analisar por modelo para obter mais detalhes.

Exemplo de cURL:

// Primeiro obtenha o token de acesso
// Obtenha a chave do aplicativo e o SID do aplicativo em https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Carregar documento de origem para o armazenamento padrão do GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analisar por modelo armazenado no armazenamento padrão do GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Qual é o próximo?

Comece uma avaliação gratuita do GroupDocs.Parser Cloud hoje – tudo que você precisa é inscrever-se no serviço GroupDocs Cloud. Depois de se inscrever, você está pronto para experimentar os poderosos recursos de processamento de arquivos oferecidos pelo GroupDocs.Parser Cloud usando os seguintes recursos.

Se você tiver alguma dúvida ou sugestão, sinta-se à vontade para nos escrever no GroupDocs.Parser Cloud Forum.