Анализ документов для извлечения текста, изображений и информации о документе

GroupDocs выходит, чтобы поделиться первой версией GroupDocs.Parser Cloud. Это готовое независимое от платформы решение REST API для анализа и извлечения данных из всех распространенных форматов бизнес-файлов без зависимости от какого-либо стороннего инструмента или плагина. Разработчики могут интегрировать его со своими веб-приложениями, настольными, мобильными или облачными приложениями без какого-либо серьезного обучения, поскольку его можно использовать на любой платформе или языке, поддерживающем REST.

Что такое GroupDocs.Parser Cloud?

Предположим, вы разрабатываете систему управления документами и вам нужна функция поиска или анализа текста. Разве не было бы здорово, если бы ваша система могла читать или анализировать широкий спектр типов документов без установки соответствующей программы для чтения документов?

GroupDocs.Parser Cloud решает вышеуказанную задачу. Это REST API для извлечения данных из документов, который поддерживает более 50 типов документов. Одной из наиболее ценных функций GroupDocs.Parser Cloud является парсинг документов с предопределенными шаблонами. Легко определить шаблон и извлечь данные из бизнес-документов, например, счета-фактуры, квитанции, предложение, письмо и т. д. Он не ограничивается извлечением текста, но вы также можете извлекать изображения из поддерживаемых типов документов. API можно использовать не только с обычными документами, но и с контейнерами, такими как ZIP-архивы, файлы почтовых данных OST/PST и портфолио PDF. Уделите немного времени и посетите примечания к выпуску первого общедоступного выпуска, чтобы ознакомиться с полным списком его функций.

Как это работает?

Вы можете использовать возможности GroupDocs.Parser Cloud в своем приложении двумя способами. Либо используйте его через какой-либо REST-клиент, либо используйте наш SDK напрямую на своем любимом языке программирования. Вы можете найти полный список SDK в репозитории GroupDocs.Parser Github.

Здесь я продемонстрирую функциональность GroupDocs.Parser Cloud, проанализировав документ Word с помощью предопределенного шаблона. Я использую клиент REST; cURL инструмент командной строки.

Во-первых, прежде чем продолжить, зарегистрируйтесь в groupdocs.cloud и получите SID и ключ приложения для аутентификации остальных вызовов API.

Создать шаблон

Как сообщалось выше, GroupDocs.Parser Cloud позволяет пользователям анализировать документ с помощью предопределенных шаблонов для извлечения данных из документа. Мы создадим шаблон для следующего документа Word и сохраним его в хранилище по умолчанию.

Итак, приступим, выполните следующие действия, чтобы создать простой шаблон:

пример cURL:

· Получить токен доступа

· Создать шаблон

// Сначала получите токен доступа
// Получите ключ приложения и SID приложения с https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Создать шаблон для анализа и сохранить в хранилище GroupDocs по умолчанию
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Разобрать документ

Теперь разберем документ Word по предустановленному шаблону из хранилища, сгенерированного выше. Шаблон может быть предоставлен как объект или путь к хранилищу, пожалуйста, проверьте документ parse by template для получения более подробной информации.

пример cURL:

// Сначала получите токен доступа
// Получите ключ приложения и SID приложения с https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Загрузить исходный документ в хранилище GrupDocs по умолчанию
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Анализ по шаблону, хранящемуся в хранилище GroupDocs по умолчанию
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Что дальше?

Начните бесплатную пробную версию GroupDocs.Parser Cloud уже сегодня — все, что вам нужно, это зарегистрироваться в сервисе GroupDocs Cloud. После регистрации вы готовы попробовать мощные функции обработки файлов, предлагаемые GroupDocs.Parser Cloud, используя следующие ресурсы.

Если у вас есть какие-либо вопросы или предложения, пишите нам на Форум GroupDocs.Parser Cloud.