解析文档以提取文本、图像和文档信息

GroupDocs 即将退出以共享 GroupDocs.Parser Cloud 的第一个版本。它是一个开箱即用的独立于平台的 REST API 解决方案,可从所有常见业务文件格式中解析和提取数据,而无需依赖任何第三方工具或插件。开发人员可以将其与他们的 Web、桌面、移动或云应用程序集成,而无需任何主要的学习曲线,因为它可以在支持 REST 的任何平台或语言上使用。

什么是 GroupDocs.Parser Cloud?

假设您正在开发一个文档管理系统,需要一个文本搜索或文本分析功能,如果您的系统无需安装相关文档阅读器就可以读取或分析多种文档类型,岂不是很棒?

GroupDocs.Parser Cloud完成了上述目的。它是一个文档数据提取 REST API,支持 50 多种文档类型。 GroupDocs.Parser Cloud 最有价值的功能之一是使用预定义模板解析文档。可以轻松定义模板并从业务文档(例如发票、收据、报价单、信件等)中提取数据。它不仅限于文本提取,还可以从支持的文档类型中提取图像。该 API 不仅可用于常规文档,还可用于 ZIP 档案、OST/PST 邮件数据文件和 PDF 组合等容器。抽出一些时间并访问 首次公开发布的发行说明 以获取其功能的完整列表。

怎么运行的?

您可以通过两种方式在应用程序中使用 GroupDocs.Parser Cloud 功能。您可以通过某些 REST 客户端使用它,也可以直接以您最喜欢的编程语言使用我们的 SDK。您可以找到来自 GroupDocs.Parser Github 存储库的 SDK 的完整列表。

在这里,我将通过使用预定义模板解析 Word 文档来演示 GroupDocs.Parser Cloud 的功能。我正在使用 REST 客户端; cURL 命令行工具。

首先,在继续之前,请注册 groupdocs.cloud 并获取应用程序 SID 和应用程序密钥来验证您的其余 API 调用。

创建模板

正如上面分享的,GroupDocs.Parser Cloud 允许用户使用预定义模板解析文档,以从文档中提取数据。我们将为以下Word文档创建一个模板并保存到默认存储。

在这里,我们按照以下步骤创建一个简单的模板:

卷曲示例:

· 获取访问令牌

· 创建模板

// 首先获取访问令牌
// 从 https://dashboard.groupdocs.cloud/ 获取应用程序密钥和应用程序 SID
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 创建用于解析的模板并保存到 GroupDocs 默认存储
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

解析文档

现在,我们将使用上面生成的存储中的预定义模板来解析 Word 文档。模板可以作为对象或存储路径提供,更多详细信息请查看通过模板解析文档。

卷曲示例:

// 首先获取访问令牌
// 从 https://dashboard.groupdocs.cloud/ 获取应用程序密钥和应用程序 SID
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 上传源文档到GrupDocs默认存储
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// 按 GroupDocs 默认存储中存储的模板进行解析
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

下一步是什么?

立即开始免费试用 GroupDocs.Parser Cloud – 您只需注册 GroupDocs Cloud 服务。注册后,您就可以使用以下资源尝试 GroupDocs.Parser Cloud 提供的强大文件处理功能。

如果您有任何问题或建议,请随时在GroupDocs.Parser云论坛上给我们留言。