Parsing dokumen untuk mengekstrak teks, gambar, dan informasi dokumen

GroupDocs keluar untuk membagikan versi pertama GroupDocs.Parser Cloud. Ini adalah Solusi REST API independen platform out of box untuk Mengurai dan Mengekstrak data dari semua format file bisnis umum tanpa bergantung pada alat atau plugin pihak ketiga mana pun. Pengembang dapat mengintegrasikannya dengan aplikasi web, desktop, seluler, atau cloud mereka tanpa kurva pembelajaran utama apa pun karena dapat digunakan pada platform atau bahasa apa pun yang mendukung REST.

Apa itu GroupDocs.Parser Cloud?

Misalkan Anda sedang mengembangkan sistem manajemen dokumen dan memerlukan fitur untuk pencarian teks atau analisis teks, bukankah akan lebih baik jika sistem Anda dapat membaca atau menganalisis berbagai jenis dokumen tanpa menginstal pembaca dokumen terkait?

GroupDocs.Parser Cloud menyelesaikan tujuan yang disebutkan di atas. Ini adalah REST API ekstraksi data dokumen yang mendukung lebih dari 50 jenis dokumen. Salah satu fitur paling berharga dari GroupDocs.Parser Cloud adalah mem-parsing dokumen dengan templat yang telah ditentukan sebelumnya. Sangat mudah untuk menentukan template dan mengekstrak data dari dokumen bisnis, misalnya faktur, kwitansi, kutipan, surat, dll. Ini tidak terbatas pada ekstraksi teks tetapi Anda juga dapat mengekstrak gambar dari jenis dokumen yang didukung. API tidak hanya dapat digunakan dengan dokumen biasa tetapi juga dengan wadah seperti arsip ZIP, file data email OST/PST, dan portofolio PDF. Luangkan waktu dan kunjungi catatan rilis dari rilis publik pertama untuk daftar lengkap fitur-fiturnya.

Bagaimana itu bekerja?

Anda dapat menggunakan fitur GroupDocs.Parser Cloud di aplikasi Anda dengan dua cara. Gunakan melalui beberapa Klien REST atau gunakan SDK kami langsung dalam bahasa pemrograman favorit Anda. Anda dapat menemukan daftar lengkap SDK dari repositori GroupDocs.Parser Github.

Di sini saya akan mendemonstrasikan fungsionalitas GroupDocs.Parser Cloud dengan mem-parsing dokumen kata dengan template yang telah ditentukan sebelumnya. Saya menggunakan klien REST; cURL alat baris perintah.

Pertama-tama, sebelum melanjutkan, harap daftar dengan groupdocs.cloud dan dapatkan SID Aplikasi dan Kunci Aplikasi untuk mengautentikasi panggilan API lainnya.

Buat Templat

Seperti yang dibagikan di atas, GroupDocs.Parser Cloud memungkinkan pengguna untuk mengurai dokumen dengan templat yang telah ditentukan sebelumnya untuk mengekstrak data dari dokumen. Kami akan membuat template untuk mengikuti dokumen Word dan menyimpannya ke penyimpanan default.

Ini dia, ikuti langkah-langkah ini untuk membuat template sederhana:

contoh cURL:

· Dapatkan Token Akses

· Buat Templat

// Pertama dapatkan Token Akses
// Dapatkan Kunci Aplikasi dan SID Aplikasi dari https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Buat Template untuk parsing dan simpan ke Penyimpanan default GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Parse Dokumen

Sekarang kita akan mem-parsing dokumen Word menggunakan templat yang telah ditentukan sebelumnya dari penyimpanan, yang dibuat di atas. Template dapat disediakan sebagai objek atau jalur penyimpanan, silakan periksa dokumen parse by template untuk detail lebih lanjut.

contoh cURL:

// Pertama dapatkan Token Akses
// Dapatkan Kunci Aplikasi dan SID Aplikasi dari https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Unggah dokumen soruce ke Penyimpanan default GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Parsing berdasarkan template yang disimpan di Penyimpanan default GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Apa berikutnya?

Mulai uji coba gratis GroupDocs.Parser Cloud hari ini – yang Anda butuhkan hanyalah mendaftar dengan layanan Cloud GroupDocs. Setelah Anda mendaftar, Anda siap untuk mencoba fitur pemrosesan file canggih yang ditawarkan oleh GroupDocs.Parser Cloud menggunakan sumber daya berikut.

Jika Anda memiliki pertanyaan atau saran, jangan ragu untuk menulis kepada kami di GroupDocs.Parser Cloud Forum.