Metin, resim ve belge bilgilerini ayıklamak için belgeleri ayrıştırın

GroupDocs, GroupDocs.Parser Cloud‘ın ilk sürümünü paylaşmak için çıkış yapıyor. Herhangi bir üçüncü taraf araca veya eklentiye bağlı olmadan tüm yaygın iş dosyası biçimlerinden verileri Ayrıştırmak ve Çıkarmak için kullanıma hazır, platformdan bağımsız bir REST API Çözümüdür. Geliştiriciler, REST’i destekleyen herhangi bir platformda veya dilde kullanılabildiğinden, büyük bir öğrenme eğrisi olmadan web, masaüstü, mobil veya bulut uygulamalarıyla entegre edebilirler.

GroupDocs.Parser Bulutu nedir?

Diyelim ki bir belge yönetim sistemi geliştiriyorsunuz ve metin arama veya metin analizi için bir özelliğe ihtiyacınız var, sisteminizin ilgili belge okuyucuyu kurmadan çok çeşitli belge türlerini okuyabilmesi veya analiz edebilmesi harika olmaz mıydı?

GroupDocs.Parser Cloud yukarıda belirtilen amacı gerçekleştirir. 50’den fazla belge türünü destekleyen bir belge veri çıkarma REST API’sidir. GroupDocs.Parser Cloud’un en değerli özelliklerinden biri, belgeleri önceden tanımlanmış şablonlarla ayrıştırmasıdır. Bir şablon tanımlamak ve örneğin faturalar, makbuzlar, fiyat teklifi, mektup vb. iş belgelerinden verileri çıkarmak kolaydır. Metin çıkarma ile sınırlı değildir, aynı zamanda desteklenen belge türlerinden resimler de çıkarabilirsiniz. API yalnızca normal belgelerle değil, aynı zamanda ZIP arşivleri, OST/PST posta veri dosyaları ve PDF portföyleri gibi kapsayıcılarla da kullanılabilir. Biraz zaman ayırın ve özelliklerinin tam listesi için bir ilk genel sürümün sürüm notlarını ziyaret edin.

Nasıl çalışır?

GroupDocs.Parser Cloud özelliklerini uygulamanızda iki şekilde kullanabilirsiniz. Ya bir REST İstemcisi aracılığıyla kullanın ya da SDK’mızı doğrudan en sevdiğiniz programlama dilinde kullanın. GroupDocs.Parser Github deposundaki SDK’lerin tam listesini bulabilirsiniz.

Burada, önceden tanımlanmış bir şablonla bir kelime belgesini ayrıştırarak GroupDocs.Parser Cloud’un işlevselliğini göstereceğim. Bir REST istemcisi kullanıyorum; cURL bir komut satırı aracıdır.

İlk olarak, devam etmeden önce lütfen groupdocs.cloud’a kaydolun ve geri kalan API çağrılarınızın kimliğini doğrulamak için Uygulama SID’si ve Uygulama Anahtarı alın.

Şablon Oluştur

Yukarıda paylaşıldığı gibi, GroupDocs.Parser Cloud, kullanıcıların belgeden verileri ayıklamak için ön tanımlı şablonlar ile belgeyi ayrıştırmasına olanak tanır. Word belgesini takip etmek için bir şablon oluşturacağız ve varsayılan depolamaya kaydedeceğiz.

İşte başlıyoruz, basit bir şablon oluşturmak için şu adımları izleyin:

cURL örneği:

· Erişim izni almak

· Şablon Oluştur

// Önce Erişim Jetonunu alın
// Uygulama Anahtarını ve Uygulama SID'sini https://dashboard.groupdocs.cloud/ adresinden alın
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Ayrıştırma için Şablon Oluşturun ve GroupDocs varsayılan Depolama Alanına kaydedin
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Belgeyi Ayrıştır

Şimdi, yukarıda oluşturulan depodan önceden tanımlanmış şablonu kullanarak Word belgesini ayrıştıracağız. Şablon bir nesne veya depolama yolu olarak sağlanabilir, lütfen daha fazla ayrıntı için şablona göre ayrıştır belgesini kontrol edin.

cURL örneği:

// Önce Erişim Jetonunu alın
// Uygulama Anahtarını ve Uygulama SID'sini https://dashboard.groupdocs.cloud/ adresinden alın
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Soruce belgesini GrupDocs varsayılan Depolama Alanına yükleyin
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// GroupDocs varsayılan Depolama alanında saklanan şablona göre ayrıştırma
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Sıradaki ne?

Bugün GroupDocs.Parser Cloud’un ücretsiz deneme sürümünü başlatın; tek ihtiyacınız olan GroupDocs Cloud hizmetine kaydolmak. Kaydolduktan sonra, aşağıdaki kaynakları kullanarak GroupDocs.Parser Cloud tarafından sunulan güçlü dosya işleme özelliklerini denemeye hazırsınız.

Herhangi bir sorunuz veya öneriniz varsa, lütfen GroupDocs.Parser Bulut Forumu üzerinden bize yazmaktan çekinmeyin.