Аналізуйте документи, щоб видобувати текст, зображення та інформацію про документи

GroupDocs виходить, щоб поділитися першою версією GroupDocs.Parser Cloud. Це готове незалежне від платформи рішення REST API для аналізу та вилучення даних із усіх поширених бізнес-форматів файлів без використання сторонніх інструментів чи плагінів. Розробники можуть інтегрувати його зі своїм веб-додатком, настільним комп’ютером, мобільним або хмарним додатком без будь-якого серйозного навчання, оскільки його можна використовувати на будь-якій платформі чи будь-якій мові, яка підтримує REST.

Що таке GroupDocs.Parser Cloud?

Припустімо, що ви розробляєте систему керування документами та потребуєте функції для пошуку або аналізу тексту. Чи не було б чудово, якби ваша система могла читати чи аналізувати широкий діапазон типів документів без встановлення пов’язаного зчитувача документів?

GroupDocs.Parser Cloud виконує вищезгадану мету. Це REST API вилучення даних документів, який підтримує понад 50 типів документів. Однією з найцінніших функцій GroupDocs.Parser Cloud є розбір документів із попередньо визначеними шаблонами. Легко визначити шаблон і витягти дані з бізнес-документів, наприклад рахунків-фактур, квитанцій, цінових пропозицій, листів тощо. Це не обмежується виділенням тексту, але ви також можете витягувати зображення з підтримуваних типів документів. API можна використовувати не лише зі звичайними документами, але й із такими контейнерами, як архіви ZIP, файли поштових даних OST/PST і портфоліо PDF. Витратьте час і відвідайте примітки до випуску першого загальнодоступного випуску, щоб переглянути повний список його функцій.

Як це працює?

Ви можете використовувати функції GroupDocs.Parser Cloud у своїй програмі двома способами. Використовуйте його через будь-який клієнт REST або використовуйте наш SDK безпосередньо на вашій улюбленій мові програмування. Ви можете знайти повний список SDK у репозиторії Github GroupDocs.Parser.

Тут я продемонструю функціональність GroupDocs.Parser Cloud шляхом аналізу документа Word із попередньо визначеним шаблоном. Я використовую клієнт REST; cURL інструмент командного рядка.

По-перше, перш ніж продовжити, зареєструйтеся за допомогою groupdocs.cloud і отримайте SID програми та ключ програми для автентифікації інших викликів API.

Створити шаблон

Як зазначено вище, GroupDocs.Parser Cloud дозволяє користувачам аналізувати документ за допомогою попередньо визначених шаблонів, щоб витягувати дані з документа. Ми створимо шаблон для наступного документа Word і збережемо його в пам’яті за замовчуванням.

Виконайте такі кроки, щоб створити простий шаблон:

Приклад cURL:

· Отримати маркер доступу

· Створити шаблон

// Спочатку отримайте маркер доступу
// Отримайте ключ додатка та SID додатка на сторінці https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Створіть шаблон для аналізу та збережіть у сховищі GroupDocs за замовчуванням
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Аналіз документа

Тепер ми розберемо документ Word за допомогою попередньо визначеного шаблону зі сховища, згенерованого вище. Шаблон можна надати як об’єкт або шлях зберігання, будь ласка, перегляньте документ parse by template для отримання додаткової інформації.

Приклад cURL:

// Спочатку отримайте маркер доступу
// Отримайте ключ додатка та SID додатка на сторінці https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Завантажте вихідний документ до сховища GrupDocs за замовчуванням
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Аналіз за шаблоном, що зберігається в сховищі GroupDocs за замовчуванням
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Що далі?

Почніть безкоштовну пробну версію GroupDocs.Parser Cloud сьогодні – все, що вам потрібно, це зареєструватися в службі GroupDocs Cloud. Зареєструвавшись, ви готові спробувати потужні функції обробки файлів, які пропонує GroupDocs.Parser Cloud, використовуючи наведені нижче ресурси.

Якщо у вас є запитання чи пропозиції, будь ласка, напишіть нам на GroupDocs.Parser Cloud Forum.