Analyser des documents pour extraire du texte, des images et des informations sur les documents

GroupDocs sort pour partager la première version de GroupDocs.Parser Cloud. Il s’agit d’une solution d’API REST indépendante de la plate-forme prête à l’emploi pour analyser et extraire les données de tous les formats de fichiers commerciaux courants sans dépendre d’un outil ou d’un plug-in tiers. Les développeurs peuvent l’intégrer à leur application Web, de bureau, mobile ou cloud sans aucune courbe d’apprentissage majeure, car il peut être utilisé sur n’importe quelle plate-forme ou langage prenant en charge REST.

Qu’est-ce que GroupDocs.Parser Cloud ?

Supposons que vous développiez un système de gestion de documents et que vous ayez besoin d’une fonctionnalité de recherche de texte ou d’analyse de texte, ne serait-il pas formidable que votre système puisse lire ou analyser un large éventail de types de documents sans installer le lecteur de document associé ?

GroupDocs.Parser Cloud accomplit l’objectif mentionné ci-dessus. Il s’agit d’une API REST d’extraction de données de documents qui prend en charge plus de 50 types de documents. L’une des fonctionnalités les plus précieuses de GroupDocs.Parser Cloud est l’analyse de documents avec des modèles prédéfinis. Il est facile de définir un modèle et d’extraire des données de documents commerciaux, par exemple des factures, des reçus, des devis, des lettres, etc. Il ne se limite pas à l’extraction de texte, mais vous pouvez également extraire des images à partir des types de documents pris en charge. L’API peut être utilisée non seulement avec des documents ordinaires, mais également avec des conteneurs tels que des archives ZIP, des fichiers de données de messagerie OST/PST et des portefeuilles PDF. Gagnez du temps et visitez notes de version d’une première version publique pour une liste complète de ses fonctionnalités.

Comment ça fonctionne?

Vous pouvez utiliser les fonctionnalités de GroupDocs.Parser Cloud dans votre application de deux manières. Utilisez-le via un client REST ou utilisez notre SDK directement dans votre langage de programmation préféré. Vous pouvez trouver une liste complète des SDK dans le référentiel GroupDocs.Parser Github.

Ici, je vais démontrer la fonctionnalité de GroupDocs.Parser Cloud en analysant un document Word avec un modèle prédéfini. J’utilise un client REST ; cURL un outil de ligne de commande.

Tout d’abord, avant de continuer, veuillez vous inscrire avec groupdocs.cloud et obtenir App SID et App Key pour authentifier vos autres appels d’API.

Créer un modèle

Comme partagé ci-dessus, GroupDocs.Parser Cloud permet aux utilisateurs d’analyser le document avec des modèles prédéfinis pour extraire des données du document. Nous allons créer un modèle pour le document Word suivant et l’enregistrer dans le stockage par défaut.

C’est parti, suivez ces étapes pour créer un modèle simple :

cURL exemple :

· Obtenir un jeton d’accès

· Créer un modèle

// Obtenez d'abord un jeton d'accès
// Obtenez la clé d'application et le SID d'application à partir de https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Créer un modèle pour l'analyse et l'enregistrement dans le stockage par défaut de GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Analyser le document

Nous allons maintenant analyser le document Word à l’aide d’un modèle prédéfini à partir du stockage, généré ci-dessus. Le modèle peut être fourni en tant qu’objet ou chemin de stockage, veuillez consulter le document analyse par modèle pour plus de détails.

cURL exemple :

// Obtenez d'abord un jeton d'accès
// Obtenez la clé d'application et le SID d'application à partir de https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Télécharger le document source dans le stockage par défaut de GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analyser par modèle stocké dans le stockage par défaut de GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Et après?

Commencez un essai gratuit de GroupDocs.Parser Cloud dès aujourd’hui - tout ce dont vous avez besoin est de s’inscrire au service GroupDocs Cloud. Une fois inscrit, vous êtes prêt à essayer les puissantes fonctionnalités de traitement de fichiers offertes par GroupDocs.Parser Cloud en utilisant les ressources suivantes.

Si vous avez des questions ou des suggestions, n’hésitez pas à nous écrire sur GroupDocs.Parser Cloud Forum.