Phân tích tài liệu để trích xuất văn bản, hình ảnh và thông tin tài liệu

GroupDocs sắp ngừng chia sẻ phiên bản đầu tiên của GroupDocs.Parser Cloud. Đây là một Giải pháp API REST độc lập với nền tảng vượt trội để Phân tích cú pháp và Trích xuất dữ liệu từ tất cả các định dạng tệp kinh doanh phổ biến mà không phụ thuộc vào bất kỳ công cụ hoặc plugin của bên thứ ba nào. Các nhà phát triển có thể tích hợp nó với ứng dụng web, máy tính để bàn, thiết bị di động hoặc đám mây của họ mà không cần bất kỳ đường cong học tập chính nào vì nó có thể được sử dụng trên bất kỳ nền tảng hoặc ngôn ngữ nào hỗ trợ REST.

Đám mây GroupDocs.Parser là gì?

Giả sử bạn đang phát triển một hệ thống quản lý tài liệu và cần một tính năng để tìm kiếm văn bản hoặc phân tích văn bản, sẽ thật tuyệt nếu hệ thống của bạn có thể đọc hoặc phân tích nhiều loại tài liệu mà không cần cài đặt trình đọc tài liệu liên quan?

GroupDocs.Parser Cloud hoàn thành mục đích nêu trên. Nó là API REST trích xuất dữ liệu tài liệu hỗ trợ hơn 50 loại tài liệu. Một trong những tính năng có giá trị nhất của GroupDocs.Parser Cloud là phân tích cú pháp tài liệu với các mẫu được xác định trước. Thật dễ dàng để xác định một mẫu và trích xuất dữ liệu từ các tài liệu kinh doanh, ví dụ như hóa đơn, biên lai, báo giá, thư, v.v. Nó không giới hạn ở việc trích xuất văn bản nhưng bạn cũng có thể trích xuất hình ảnh từ các loại tài liệu được hỗ trợ. API có thể được sử dụng không chỉ với các tài liệu thông thường mà còn với các vùng chứa như kho lưu trữ ZIP, tệp dữ liệu thư OST/PST và danh mục đầu tư PDF. Hãy dành chút thời gian và truy cập ghi chú phát hành của bản phát hành công khai đầu tiên để biết danh sách đầy đủ các tính năng của nó.

Làm thế nào nó hoạt động?

Bạn có thể sử dụng các tính năng của GroupDocs.Parser Cloud trong ứng dụng của mình theo hai cách. Sử dụng nó thông qua một số Ứng dụng khách REST hoặc sử dụng SDK của chúng tôi trực tiếp bằng ngôn ngữ lập trình yêu thích của bạn. Bạn có thể tìm thấy danh sách đầy đủ SDK từ kho lưu trữ GroupDocs.Parser Github.

Ở đây, tôi sẽ trình bày chức năng của GroupDocs.Parser Cloud bằng cách phân tích cú pháp một tài liệu từ với một mẫu được xác định trước. Tôi đang sử dụng ứng dụng khách REST; cURL một công cụ dòng lệnh.

Điều đầu tiên, trước khi bạn tiếp tục, vui lòng đăng ký với groupdocs.cloud và lấy SID ứng dụng và Khóa ứng dụng để xác thực các lệnh gọi API còn lại của bạn.

Tạo mẫu

Như đã chia sẻ ở trên, GroupDocs.Parser Cloud cho phép người dùng phân tích cú pháp tài liệu bằng các mẫu được xác định trước để trích xuất dữ liệu từ tài liệu. Chúng tôi sẽ tạo một mẫu cho tài liệu Word sau và lưu vào bộ lưu trữ mặc định.

Ở đây chúng tôi bắt đầu, hãy làm theo các bước sau để tạo một mẫu đơn giản:

cURL ví dụ:

· Nhận mã thông báo truy cập

· Tạo mẫu

// Đầu tiên nhận Access Token
// Nhận Khóa ứng dụng và SID ứng dụng từ https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Tạo Mẫu để phân tích cú pháp và lưu vào Bộ lưu trữ mặc định của GroupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

Phân tích tài liệu

Bây giờ, chúng tôi sẽ phân tích cú pháp tài liệu Word bằng cách sử dụng mẫu được xác định trước từ bộ lưu trữ, được tạo ở trên. Mẫu có thể được cung cấp dưới dạng đối tượng hoặc đường dẫn lưu trữ, vui lòng kiểm tra tài liệu phân tích cú pháp theo mẫu để biết thêm chi tiết.

cURL ví dụ:

// Đầu tiên nhận Access Token
// Nhận Khóa ứng dụng và SID ứng dụng từ https://dashboard.groupdocs.cloud/
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// Tải tài liệu nguồn lên Bộ lưu trữ mặc định của GrupDocs
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// Phân tích cú pháp theo mẫu được lưu trữ trong Bộ lưu trữ mặc định của GroupDocs
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

Cái gì tiếp theo?

Bắt đầu dùng thử miễn phí GroupDocs.Parser Cloud ngay hôm nay – tất cả những gì bạn cần là đăng ký dịch vụ GroupDocs Cloud. Khi bạn đã đăng ký, bạn đã sẵn sàng dùng thử các tính năng xử lý tệp mạnh mẽ do GroupDocs.Parser Cloud cung cấp bằng cách sử dụng các tài nguyên sau.

Nếu bạn có bất kỳ câu hỏi hoặc đề xuất nào, vui lòng viết thư cho chúng tôi trên GroupDocs.Parser Cloud Forum.