Analysieren Sie Dokumente, um Text, Bilder und Dokumentinformationen zu extrahieren

GroupDocs wird eingestellt, um die erste Version von GroupDocs.Parser Cloud zu teilen. Es handelt sich um eine sofort einsatzbereite, plattformunabhängige REST-API-Lösung zum Parsen und Extrahieren von Daten aus allen gängigen Geschäftsdateiformaten, ohne auf Tools oder Plugins von Drittanbietern angewiesen zu sein. Entwickler können es ohne großen Lernaufwand in ihre Web-, Desktop-, Mobil oder Cloud-Anwendung integrieren, da es auf jeder Plattform oder Sprache verwendet werden kann, die REST unterstützt.

Was ist GroupDocs.Parser Cloud?

Angenommen, Sie entwickeln ein Dokumentenverwaltungssystem und benötigen eine Funktion zur Textsuche oder Textanalyse. Wäre es dann nicht großartig, wenn Ihr System eine Vielzahl von Dokumenttypen lesen und analysieren könnte, ohne den entsprechenden Dokumentenleser installieren zu müssen?

GroupDocs.Parser Cloud erfüllt den oben genannten Zweck. Es handelt sich um eine REST-API zur Dokumentendatenextraktion, die über 50 Dokumenttypen unterstützt. Eine der wertvollsten Funktionen von GroupDocs.Parser Cloud ist das Parsen von Dokumenten mit vordefinierten Vorlagen. Es ist einfach, eine Vorlage zu definieren und Daten aus Geschäftsdokumenten zu extrahieren, zum Beispiel Rechnungen, Quittungen, Angebote, Briefe usw. Die Extraktion ist nicht auf die Textextraktion beschränkt, sondern Sie können auch Bilder aus den unterstützten Dokumenttypen extrahieren. Die API kann nicht nur mit regulären Dokumenten verwendet werden, sondern auch mit Containern wie ZIP-Archiven, OST/PST-Mail-Datendateien und PDF-Portfolios. Nehmen Sie sich etwas Zeit und besuchen Sie Versionshinweise einer ersten öffentlichen Veröffentlichung, um eine vollständige Liste der Funktionen zu erhalten.

Wie es funktioniert?

Sie können GroupDocs.Parser Cloud funktionen in Ihrer Anwendung auf zwei Arten verwenden. Nutzen Sie es entweder über einen REST-Client oder nutzen Sie unser SDK direkt in Ihrer bevorzugten Programmiersprache. Eine vollständige Liste der [SDKs im GroupDocs.Parser Github-Repository] finden Sie4.

Hier demonstriere ich die Funktionalität von GroupDocs.Parser Cloud, indem ich ein Word Dokument mit einer vordefinierten Vorlage analysiere. Ich verwende einen REST-Client. cURL ist ein Befehlszeilentool.

Als Erstes: Bevor Sie fortfahren, melden Sie sich bitte bei groupdocs.cloud an und besorgen Sie sich die App-SID und den App-Schlüssel, um Ihre restlichen API-Aufrufe zu authentifizieren.

Vorlage erstellen

Wie oben erläutert, ermöglicht GroupDocs.Parser Cloud Benutzern das Parsen von Dokumenten mit vordefinierten Vorlagen, um Daten aus dem Dokument zu extrahieren. Wir erstellen eine Vorlage für das folgende Word Dokument und speichern es im Standardspeicher.

Los geht’s, folgen Sie diesen Schritten, um eine einfache Vorlage zu erstellen:

cURL-Beispiel:

· Zugriffstoken erhalten

· Vorlage erstellen

// Holen Sie sich zuerst den Zugriffstoken
// Holen Sie sich den App-Schlüssel und die App-SID von https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Erstellen Sie eine Vorlage zum Parsen und speichern Sie sie im GroupDocs-Standardspeicher
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Dokument analysieren

Jetzt analysieren wir das Word Dokument mithilfe einer vordefinierten Vorlage aus dem oben generierten Speicher. Die Vorlage kann als Objekt oder Speicherpfad bereitgestellt werden. Weitere Informationen finden Sie im Dokument nach Vorlage analysieren.

cURL-Beispiel:

// Holen Sie sich zuerst den Zugriffstoken
// Holen Sie sich den App-Schlüssel und die App-SID von https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Laden Sie das Quelldokument in den GrupDocs-Standardspeicher hoch
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analysieren Sie nach Vorlage, die im Standardspeicher von GroupDocs gespeichert ist
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Was kommt als nächstes?

Starten Sie noch heute eine kostenlose Testversion von GroupDocs.Parser Cloud – Sie müssen sich lediglich beim GroupDocs Cloud-Dienst anmelden. Sobald Sie sich angemeldet haben, können Sie die leistungsstarken Dateiverarbeitungsfunktionen von GroupDocs.Parser Cloud mithilfe der folgenden Ressourcen ausprobieren.

Wenn Sie Fragen oder Anregungen haben, schreiben Sie uns bitte im GroupDocs.Parser Cloud Forum.