Analyzujte dokumenty a extrahujte text, obrázky a informace o dokumentu

GroupDocs ukončuje sdílení první verze GroupDocs.Parser Cloud. Jedná se o hotové řešení REST API nezávislé na platformě pro analýzu a extrahování dat ze všech běžných formátů obchodních souborů bez závislosti na nástroji nebo pluginu třetí strany. Vývojáři jej mohou integrovat se svou webovou, desktopovou, mobilní nebo cloudovou aplikací bez velkého učení, protože jej lze použít na jakékoli platformě nebo jazyce, který podporuje REST.

Co je GroupDocs.Parser Cloud?

Předpokládejme, že vyvíjíte systém správy dokumentů a potřebujete funkci pro vyhledávání textu nebo analýzu textu, nebylo by skvělé, kdyby váš systém mohl číst nebo analyzovat širokou škálu typů dokumentů bez instalace související čtečky dokumentů?

GroupDocs.Parser Cloud splňuje výše uvedený účel. Jedná se o REST API pro extrakci dat dokumentů, které podporuje více než 50 typů dokumentů. Jednou z nejcennějších funkcí GroupDocs.Parser Cloud je analýza dokumentů s předdefinovanými šablonami. Je snadné definovat šablonu a extrahovat data z obchodních dokumentů, například faktur, účtenek, cenových nabídek, dopisů atd. Není to omezeno na extrakci textu, ale můžete také extrahovat obrázky z podporovaných typů dokumentů. API lze použít nejen s běžnými dokumenty, ale také s kontejnery, jako jsou archivy ZIP, datové soubory pošty OST/PST a portfolia PDF. Udělejte si čas a navštivte poznámky k vydání prvního veřejného vydání, kde najdete úplný seznam jeho funkcí.

Jak to funguje?

Funkce GroupDocs.Parser Cloud ve své aplikaci můžete používat dvěma způsoby. Buď to použijte přes nějakého klienta REST nebo použijte naše SDK přímo ve svém oblíbeném programovacím jazyce. Můžete najít kompletní seznam SDK z repozitáře GroupDocs.Parser Github.

Zde předvedu funkčnost GroupDocs.Parser Cloud analýzou wordového dokumentu s předdefinovanou šablonou. Používám klienta REST; cURL nástroj příkazového řádku.

Za prvé, než budete pokračovat, zaregistrujte se na groupdocs.cloud a získejte SID aplikace a klíč aplikace pro ověření vašich zbývajících volání API.

Vytvořit šablonu

Jak je uvedeno výše, GroupDocs.Parser Cloud umožňuje uživatelům analyzovat dokument pomocí předdefinovaných šablon a extrahovat data z dokumentu. Vytvoříme šablonu pro následující dokument Word a uložíme do výchozího úložiště.

Tady to je, podle následujících kroků vytvořte jednoduchou šablonu:

příklad cURL:

· Získejte přístupový token

· Vytvořit šablonu

// Nejprve získejte přístupový token
// Získejte App Key a App SID z https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Vytvořte šablonu pro analýzu a uložte ji do výchozího úložiště GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Analyzovat dokument

Nyní analyzujeme dokument Word pomocí předdefinované šablony z úložiště, vygenerovaného výše. Šablonu lze poskytnout jako objekt nebo cestu k úložišti. Další podrobnosti naleznete v dokumentu analyzovat podle šablony.

příklad cURL:

// Nejprve získejte přístupový token
// Získejte App Key a App SID z https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Nahrajte zdrojový dokument do výchozího úložiště GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Analýza podle šablony uložené ve výchozím úložišti GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Co bude dál?

Zahajte bezplatnou zkušební verzi GroupDocs.Parser Cloud ještě dnes – vše, co potřebujete, je zaregistrovat se do služby GroupDocs Cloud. Jakmile se zaregistrujete, jste připraveni vyzkoušet výkonné funkce zpracování souborů, které nabízí GroupDocs.Parser Cloud pomocí následujících zdrojů.

Pokud máte nějaké dotazy nebo návrhy, neváhejte nám napsat na GroupDocs.Parser Cloud Forum.