문서를 구문 분석하여 텍스트, 이미지 및 문서 정보 추출

GroupDocs는 GroupDocs.Parser Cloud의 첫 번째 버전을 공유하기 위해 종료됩니다. 타사 도구나 플러그인에 의존하지 않고 모든 일반적인 비즈니스 파일 형식에서 데이터를 구문 분석하고 추출하는 즉시 사용 가능한 플랫폼 독립 REST API 솔루션입니다. REST를 지원하는 모든 플랫폼 또는 언어에서 사용할 수 있으므로 개발자는 주요 학습 곡선 없이 웹, 데스크톱, 모바일 또는 클라우드 애플리케이션과 통합할 수 있습니다.

GroupDocs.Parser 클라우드란?

문서 관리 시스템을 개발 중이고 텍스트 검색 또는 텍스트 분석 기능이 필요하다고 가정하면 관련 문서 리더를 설치하지 않고도 시스템에서 다양한 문서 유형을 읽고 분석할 수 있다면 좋지 않을까요?

GroupDocs.Parser Cloud는 위에서 언급한 목적을 달성합니다. 50개 이상의 문서 유형을 지원하는 문서 데이터 추출 REST API입니다. GroupDocs.Parser Cloud의 가장 유용한 기능 중 하나는 미리 정의된 템플릿으로 문서를 구문 분석하는 것입니다. 송장, 영수증, 견적서, 편지 등과 같은 비즈니스 문서에서 템플릿을 정의하고 데이터를 쉽게 추출할 수 있습니다. 텍스트 추출에 국한되지 않고 지원되는 문서 유형에서 이미지를 추출할 수도 있습니다. API는 일반 문서뿐만 아니라 ZIP 아카이브, OST/PST 메일 데이터 파일 및 PDF 포트폴리오와 같은 컨테이너에서도 사용할 수 있습니다. 시간을 할애하여 전체 기능 목록을 보려면 첫 번째 공개 릴리스의 릴리스 노트를 방문하십시오.

어떻게 작동합니까?

두 가지 방법으로 애플리케이션에서 GroupDocs.Parser Cloud 기능을 사용할 수 있습니다. 일부 REST 클라이언트를 통해 사용하거나 좋아하는 프로그래밍 언어에서 직접 SDK를 사용하십시오. GroupDocs.Parser Github 리포지토리의 SDK의 전체 목록을 찾을 수 있습니다.

여기에서는 미리 정의된 템플릿으로 단어 문서를 구문 분석하여 GroupDocs.Parser Cloud의 기능을 보여드리겠습니다. REST 클라이언트를 사용하고 있습니다. cURL은 명령줄 도구입니다.

먼저 진행하기 전에 groupdocs.cloud로 가입하고 앱 SID와 앱 키를 받아 나머지 API 호출을 인증하세요.

템플릿 만들기

위에서 공유한 바와 같이 GroupDocs.Parser Cloud를 사용하면 사용자가 사전 정의된 템플릿으로 문서를 구문 분석하여 문서에서 데이터를 추출할 수 있습니다. 다음 Word 문서에 대한 템플릿을 만들고 기본 저장소에 저장합니다.

다음 단계에 따라 간단한 템플릿을 만듭니다.

cURL 예:

· 액세스 토큰 받기

· 템플릿 만들기

// 먼저 액세스 토큰을 얻습니다.
// https://dashboard.groupdocs.cloud/에서 앱 키 및 앱 SID 가져오기
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// 구문 분석을 위한 템플릿 생성 및 GroupDocs 기본 저장소에 저장
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/template" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_TOken]" 
-H "Content-Type: application/json" 
-d "{
  "Template": {
    "Fields": [
      {
        "FieldName": "Address",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company address:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyAddress",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "ADDRESS",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      },
      {
        "FieldName": "Company",
        "FieldPosition": {
          "FieldPositionType": "Regex",
          "Regex": "Company name:",
          "MatchCase": false,
          "IsLeftLinked": false,
          "IsRightLinked": false,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "AutoScale": false
        }
      },
      {
        "FieldName": "CompanyName",
        "FieldPosition": {
          "FieldPositionType": "Linked",
          "MatchCase": false,
          "LinkedFieldName": "Company",
          "IsLeftLinked": false,
          "IsRightLinked": true,
          "IsTopLinked": false,
          "IsBottomLinked": false,
          "SearchArea": {
            "Height": 10.0,
            "Width": 100.0
          },
          "AutoScale": true
        }
      }
    ],
    "Tables": [
      {
        "TableName": "Companies",
        "DetectorParameters": {
          "Rectangle": {
            "Position": {
              "X": 77.0,
              "Y": 279.0
            },
            "Size": {
              "Height": 60.0,
              "Width": 480.0
            }
          }
        }
      }
    ]
  },
  "TemplatePath": "Temp/companies.json"
}"

문서 구문 분석

이제 위에서 생성된 저장소의 미리 정의된 템플릿을 사용하여 Word 문서를 구문 분석합니다. 템플릿은 객체 또는 저장 경로로 제공될 수 있습니다. 자세한 내용은 템플릿으로 구문 분석 문서를 확인하세요.

cURL 예:

// 먼저 액세스 토큰을 얻습니다.
// https://dashboard.groupdocs.cloud/에서 앱 키 및 앱 SID 가져오기
curl -X POST "https://api.groupdocs.cloud/connect/token" 
-d "grant_type=client_credentials&client_id=[App_SID]&client_secret=[App_Key]" 
-H "Content-Type: application/x-www-form-urlencoded" 
-H "Accept: application/json"

// GrupDocs 기본 저장소에 소스 문서 업로드
curl -X PUT "https://api.groupdocs.cloud/v1.0/parser/storage/file/Temp/companies.docx" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: multipart/form-data" 
-F "File=@C:/Temp/companies.docx"

// GroupDocs 기본 저장소에 저장된 템플릿으로 구문 분석
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/parse" 
-H "accept: application/json" 
-H "authorization: Bearer [Access_Token]" 
-H "Content-Type: application/json" 
-d "{ "FileInfo": { "FilePath": "Temp/companies.docx", }, "TemplatePath": "Temp/companies.json"}"

무엇 향후 계획?

지금 GroupDocs.Parser Cloud 무료 평가판을 시작하세요. GroupDocs Cloud 서비스에 가입하기만 하면 됩니다. 가입하면 다음 리소스를 사용하여 GroupDocs.Parser Cloud에서 제공하는 강력한 파일 처리 기능을 사용해 볼 준비가 된 것입니다.

질문이나 제안 사항이 있으면 언제든지 GroupDocs.Parser 클라우드 포럼에 글을 남겨주세요.