تجزیه اسناد برای استخراج متن، تصاویر و اطلاعات سند

GroupDocs برای اشتراک‌گذاری اولین نسخه GroupDocs.Parser Cloud در حال خروج است. این یک راه حل REST API مستقل از پلت فرم خارج از جعبه برای تجزیه و استخراج داده ها از همه فرمت های رایج فایل های تجاری بدون وابستگی به ابزار یا افزونه شخص ثالث است. توسعه دهندگان می توانند آن را بدون هیچ منحنی یادگیری عمده ای با وب، دسکتاپ، موبایل یا برنامه ابری خود ادغام کنند زیرا می توان آن را در هر پلتفرم یا زبانی که از REST پشتیبانی می کند استفاده کرد.

GroupDocs.Parser Cloud چیست؟

فرض کنید در حال توسعه یک سیستم مدیریت اسناد هستید و به یک ویژگی برای جستجوی متن یا تجزیه و تحلیل متن نیاز دارید، آیا عالی نیست اگر سیستم شما بتواند طیف گسترده ای از انواع اسناد را بدون نصب سند خوان مرتبط بخواند یا تجزیه و تحلیل کند؟

GroupDocs.Parser Cloud هدف ذکر شده در بالا را انجام می دهد. این یک API استخراج داده‌های سند REST است که از بیش از 50 نوع سند پشتیبانی می‌کند. یکی از با ارزش ترین ویژگی های GroupDocs.Parser Cloud تجزیه اسناد با قالب های از پیش تعریف شده است. تعریف یک الگو و استخراج داده ها از اسناد تجاری، به عنوان مثال فاکتورها، رسیدها، نقل قول ها، نامه ها و غیره آسان است. این به استخراج متن محدود نمی شود، بلکه می توانید تصاویر را از انواع اسناد پشتیبانی شده نیز استخراج کنید. API را می توان نه تنها با اسناد معمولی، بلکه با کانتینرهایی مانند بایگانی ZIP، فایل های داده ایمیل OST/PST و نمونه کارها PDF نیز استفاده کرد. کمی وقت بگذارید و از [یادداشت‌های انتشار اولین نسخه عمومی3 برای فهرست کامل ویژگی‌های آن بازدید کنید.

چگونه کار می کند؟

شما می توانید از دو طریق از ویژگی های GroupDocs.Parser Cloud در برنامه خود استفاده کنید. یا از طریق برخی از REST Client از آن استفاده کنید یا از SDK ما مستقیماً در زبان برنامه نویسی مورد علاقه خود استفاده کنید. می توانید لیست کاملی از SDK ها از مخزن GroupDocs.Parser Github را پیدا کنید.

در اینجا من عملکرد GroupDocs.Parser Cloud را با تجزیه یک سند word با یک الگوی از پیش تعریف شده نشان خواهم داد. من از یک مشتری REST استفاده می کنم. CURL یک ابزار خط فرمان.

اول از همه، قبل از ادامه، لطفاً با groupdocs.cloud ثبت نام کنید و App SID و App Key را برای احراز هویت بقیه تماس‌های API خود دریافت کنید.

ایجاد الگو

همانطور که در بالا به اشتراک گذاشته شد، GroupDocs.Parser Cloud به کاربران اجازه می دهد تا سند را با الگوهای از پیش تعریف شده تجزیه کنند تا داده ها را از سند استخراج کنند. ما یک الگو برای دنبال کردن سند Word ایجاد می کنیم و در حافظه پیش فرض ذخیره می کنیم.

در اینجا می رویم، این مراحل را برای ایجاد یک قالب ساده دنبال کنید:

مثال cURL:

· دریافت رمز دسترسی

· ایجاد الگو

// ابتدا Access Token را دریافت کنید
// کلید برنامه و شناسه برنامه را از https://dashboard.groupdocs.cloud/ دریافت کنید
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// الگوی تجزیه را ایجاد کنید و در ذخیره‌سازی پیش‌فرض GroupDocs ذخیره کنید
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

تجزیه سند

اکنون سند Word را با استفاده از الگوی از پیش تعریف شده از فضای ذخیره سازی که در بالا ایجاد شده است، تجزیه می کنیم. الگو را می توان به عنوان یک شی یا مسیر ذخیره سازی ارائه کرد، لطفاً برای جزئیات بیشتر، سند تجزیه با الگو را بررسی کنید.

مثال cURL:

// ابتدا Access Token را دریافت کنید
// کلید برنامه و شناسه برنامه را از https://dashboard.groupdocs.cloud/ دریافت کنید
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// سند منبع را در فضای ذخیره سازی پیش فرض GrupDocs آپلود کنید
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// تجزیه بر اساس الگوی ذخیره شده در ذخیره سازی پیش فرض GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

بعدی چیه؟

امروز یک آزمایش رایگان از GroupDocs.Parser Cloud را شروع کنید – تنها چیزی که نیاز دارید این است که با سرویس GroupDocs Cloud ثبت نام کنید. پس از ثبت نام، آماده هستید تا ویژگی های پردازش فایل قدرتمند ارائه شده توسط GroupDocs.Parser Cloud را با استفاده از منابع زیر امتحان کنید.

اگر سؤال یا پیشنهادی دارید، لطفاً برای ما در GroupDocs.Parser Cloud Forum بنویسید.