文書を解析してテキスト、画像、文書情報を抽出する

GroupDocs は、GroupDocs.Parser Cloud の最初のバージョンを共有するために終了します。これは、サードパーティのツールやプラグインに依存せずに、すべての一般的なビジネス ファイル形式からデータを解析して抽出する、すぐに使用できるプラットフォームに依存しない REST API ソリューションです。 REST をサポートする任意のプラットフォームまたは言語で使用できるため、開発者は大きな学習曲線を必要とせずに Web、デスクトップ、モバイル、またはクラウド アプリケーションと統合できます。

GroupDocs.Parser クラウドとは何ですか?

ドキュメント管理システムを開発していて、テキスト検索またはテキスト分析の機能が必要だとします。関連するドキュメント リーダーをインストールせずに、システムが幅広い種類のドキュメントを読み取ったり分析できれば素晴らしいと思いませんか?

GroupDocs.Parser Cloud は上記の目的を達成します。 50種類以上の文書タイプをサポートする文書データ抽出REST APIです。 GroupDocs.Parser Cloud の最も価値のある機能の 1 つは、事前定義されたテンプレートを使用してドキュメントを解析することです。テンプレートを定義して、請求書、領収書、見積書、手紙などのビジネス文書からデータを抽出するのは簡単です。テキスト抽出に限定されず、サポートされている文書タイプから画像を抽出することもできます。この API は、通常のドキュメントだけでなく、ZIP アーカイブ、OST/PST メール データ ファイル、PDF ポートフォリオなどのコンテナーでも使用できます。時間を割いて、最初の公開リリースのリリース ノート にアクセスして、その機能の完全なリストを確認してください。

使い方?

アプリケーションで GroupDocs.Parser Cloud 機能を使用するには、2 つの方法があります。 REST クライアント経由で使用するか、お気に入りのプログラミング言語で SDK を直接使用してください。 GroupDocs.Parser Github リポジトリの SDK の完全なリストを見つけることができます。

ここでは、事前定義されたテンプレートを使用して Word ドキュメントを解析することにより、GroupDocs.Parser Cloud の機能を示します。 REST クライアントを使用しています。 cURL コマンドラインツール。

まず最初に、続行する前に groupdocs.cloud にサインアップ して、残りの API 呼び出しを認証するためのアプリ SID とアプリ キーを取得してください。

テンプレートの作成

上で共有したように、GroupDocs.Parser Cloud を使用すると、ユーザーは 事前定義されたテンプレート を使用してドキュメントを解析し、ドキュメントからデータを抽出できます。次の Word 文書のテンプレートを作成し、デフォルトのストレージに保存します。

では、次の手順に従って簡単なテンプレートを作成します。

cURL の例:

· アクセストークンの取得

· テンプレートの作成

// まずはアクセストークンを取得します
// https://dashboard.groupdocs.cloud/ からアプリ キーとアプリ SID を取得します。
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 解析用のテンプレートを作成し、GroupDocs のデフォルト ストレージに保存します
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

文書を解析する

ここで、上で生成したストレージからの事前定義テンプレートを使用して Word 文書を解析します。テンプレートはオブジェクトまたはストレージ パスとして提供できます。詳細については、テンプレートによる解析 ドキュメントを確認してください。

cURL の例:

// まずはアクセストークンを取得します
// https://dashboard.groupdocs.cloud/ からアプリ キーとアプリ SID を取得します。
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// ソースドキュメントをGrupDocsのデフォルトストレージにアップロードします
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// GroupDocs のデフォルト ストレージに保存されたテンプレートによる解析
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

次は何ですか?

今すぐ GroupDocs.Parser Cloud の無料トライアルを開始してください。GroupDocs Cloud サービスにサインアップするだけです。サインアップすると、次のリソースを使用して GroupDocs.Parser Cloud が提供する強力なファイル処理機能を試すことができます。

ご質問やご提案がございましたら、GroupDocs.Parser Cloud Forum までお気軽にお問い合わせください。