解析文檔以提取文本、圖像和文檔信息

GroupDocs 即將退出以共享 GroupDocs.Parser Cloud 的第一個版本。它是一個開箱即用的獨立於平台的 REST API 解決方案,可從所有常見業務文件格式中解析和提取數據,而無需依賴任何第三方工具或插件。開發人員可以將其與他們的 Web、桌面、移動或云應用程序集成,而無需任何主要的學習曲線,因為它可以在支持 REST 的任何平台或語言上使用。

什麼是 GroupDocs.Parser Cloud?

假設您正在開發一個文檔管理系統,需要一個文本搜索或文本分析功能,如果您的系統無需安裝相關文檔閱讀器就可以讀取或分析多種文檔類型,豈不是很棒?

GroupDocs.Parser Cloud完成了上述目的。它是一個文檔數據提取 REST API,支持 50 多種文檔類型。 GroupDocs.Parser Cloud 最有價值的功能之一是使用預定義模板解析文檔。可以輕鬆定義模板並從業務文檔(例如發票、收據、報價單、信件等)中提取數據。它不僅限於文本提取,還可以從支持的文檔類型中提取圖像。該 API 不僅可用於常規文檔,還可用於 ZIP 檔案、OST/PST 郵件數據文件和 PDF 組合等容器。抽出一些時間並訪問 首次公開發布的發行說明 以獲取其功能的完整列表。

怎麼運行的?

您可以通過兩種方式在應用程序中使用 GroupDocs.Parser Cloud 功能。您可以通過某些 REST 客戶端使用它,也可以直接以您最喜歡的編程語言使用我們的 SDK。您可以找到來自 GroupDocs.Parser Github 存儲庫的 SDK 的完整列表。

在這裡,我將通過使用預定義模板解析 Word 文檔來演示 GroupDocs.Parser Cloud 的功能。我正在使用 REST 客戶端; cURL 命令行工具。

首先,在繼續之前,請註冊 groupdocs.cloud 並獲取應用程序 SID 和應用程序密鑰來驗證您的其餘 API 調用。

創建模板

正如上面分享的,GroupDocs.Parser Cloud 允許用戶使用預定義模板解析文檔,以從文檔中提取數據。我們將為以下Word文檔創建一個模板並保存到默認存儲。

在這裡,我們按照以下步驟創建一個簡單的模板:

捲曲示例:

· 獲取訪問令牌

· 創建模板

// 首先獲取訪問令牌
// 從 https://dashboard.groupdocs.cloud/ 獲取應用程序密鑰和應用程序 SID
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 創建用於解析的模板並保存到 GroupDocs 默認存儲
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

解析文檔

現在,我們將使用上面生成的存儲中的預定義模板來解析 Word 文檔。模板可以作為對像或存儲路徑提供,更多詳細信息請查看通過模板解析文檔。

捲曲示例:

// 首先獲取訪問令牌
// 從 https://dashboard.groupdocs.cloud/ 獲取應用程序密鑰和應用程序 SID
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 上傳源文檔到GrupDocs默認存儲
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// 按 GroupDocs 默認存儲中存儲的模板進行解析
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

下一步是什麼?

立即開始免費試用 GroupDocs.Parser Cloud – 您只需註冊 GroupDocs Cloud 服務。註冊後,您就可以使用以下資源嘗試 GroupDocs.Parser Cloud 提供的強大文件處理功能。

如果您有任何問題或建議,請隨時在GroupDocs.Parser雲論壇上給我們留言。