Analizuj dokumenty, aby wyodrębnić tekst, obrazy i informacje o dokumencie

GroupDocs wychodzi, aby udostępnić pierwszą wersję GroupDocs.Parser Cloud. Jest to gotowe, niezależne od platformy rozwiązanie REST API do analizowania i wyodrębniania danych ze wszystkich popularnych formatów plików biznesowych bez zależności od narzędzi lub wtyczek innych firm. Deweloperzy mogą zintegrować go ze swoimi aplikacjami internetowymi, stacjonarnymi, mobilnymi lub w chmurze bez większego procesu uczenia się, ponieważ można go używać na dowolnej platformie lub w dowolnym języku obsługującym REST.

Co to jest GroupDocs.Parser Cloud?

Załóżmy, że tworzysz system zarządzania dokumentami i potrzebujesz funkcji wyszukiwania lub analizy tekstu. Czy nie byłoby wspaniale, gdyby Twój system mógł czytać lub analizować szeroką gamę typów dokumentów bez instalowania powiązanego czytnika dokumentów?

GroupDocs.Parser Cloud realizuje powyższy cel. Jest to REST API do ekstrakcji danych z dokumentów, które obsługuje ponad 50 typów dokumentów. Jedną z najcenniejszych funkcji GroupDocs.Parser Cloud jest parsowanie dokumentów za pomocą predefiniowanych szablonów. Łatwo jest zdefiniować szablon i wyodrębnić dane z dokumentów biznesowych, na przykład faktur, paragonów, ofert, listów itp. Nie ogranicza się to do wyodrębniania tekstu, ale można również wyodrębniać obrazy z obsługiwanych typów dokumentów. Interfejs API może być używany nie tylko ze zwykłymi dokumentami, ale także z kontenerami, takimi jak archiwa ZIP, pliki danych poczty OST/PST i portfolio PDF. Poświęć trochę czasu i odwiedź informacje o pierwszym wydaniu publicznym, aby zapoznać się z pełną listą jego funkcji.

Jak to działa?

Możesz korzystać z funkcji GroupDocs.Parser Cloud w swojej aplikacji na dwa sposoby. Albo użyj go za pośrednictwem klienta REST, albo użyj naszego SDK bezpośrednio w swoim ulubionym języku programowania. Pełną listę SDK można znaleźć w repozytorium GroupDocs.Parser Github.

Tutaj zademonstruję funkcjonalność GroupDocs.Parser Cloud, analizując dokument Word z predefiniowanym szablonem. Używam klienta REST; cURL narzędzie wiersza poleceń.

Po pierwsze, zanim przejdziesz dalej, zarejestruj się w groupdocs.cloud i uzyskaj identyfikator SID aplikacji oraz klucz aplikacji, aby uwierzytelnić pozostałe wywołania interfejsu API.

Utwórz szablon

Jak udostępniono powyżej, GroupDocs.Parser Cloud umożliwia użytkownikom analizowanie dokumentów za pomocą predefiniowanych szablonów w celu wyodrębnienia danych z dokumentu. Stworzymy szablon dla następującego dokumentu Word i zapiszemy go w domyślnej pamięci.

Proszę bardzo, wykonaj następujące kroki, aby utworzyć prosty szablon:

Przykład cURL:

· Uzyskaj token dostępu

· Utwórz szablon

// Najpierw zdobądź token dostępu
// Uzyskaj klucz aplikacji i identyfikator SID aplikacji z https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Utwórz szablon do analizy i zapisz w domyślnej pamięci GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Przeanalizuj dokument

Teraz przeanalizujemy dokument programu Word przy użyciu predefiniowanego szablonu z magazynu wygenerowanego powyżej. Szablon może być dostarczony jako obiekt lub ścieżka przechowywania. Więcej informacji można znaleźć w dokumencie parse by template.

Przykład cURL:

// Najpierw zdobądź token dostępu
// Uzyskaj klucz aplikacji i identyfikator SID aplikacji z https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Prześlij dokument źródłowy do domyślnej pamięci GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analizuj według szablonu przechowywanego w domyślnej pamięci masowej GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Co dalej?

Rozpocznij bezpłatny okres próbny GroupDocs.Parser Cloud już dziś – wystarczy zarejestrować się w usłudze GroupDocs Cloud. Po zarejestrowaniu się możesz wypróbować zaawansowane funkcje przetwarzania plików oferowane przez GroupDocs.Parser Cloud, korzystając z następujących zasobów.

Jeśli masz jakieś pytania lub sugestie, napisz do nas na GroupDocs.Parser Cloud Forum.