Node.js에서 REST API를 사용하여 Word 문서 구문 분석

다양한 목적으로 Word 문서에서 텍스트 또는 이미지를 추출해야 할 수 있습니다. Node.js 애플리케이션에서 Word 문서를 쉽게 구문 분석하고 프로그래밍 방식으로 텍스트를 읽을 수 있습니다. Node.js 개발자는 클라우드에서 프로그래밍 방식으로 DOCX 파일에서 모든 텍스트와 이미지를 추출할 수 있습니다. 이 기사에서는 Node.js에서 REST API를 사용하여 Word 문서를 구문 분석하는 방법에 중점을 둘 것입니다.

이 문서에서는 다음 항목을 다룹니다.

문서 파서 REST API 및 Node.js SDK

DOCX 문서를 구문 분석하기 위해 GroupDocs.Parser Cloud의 Node.js SDK API를 사용합니다. 50개 이상의 문서 유형에서 데이터를 구문 분석할 수 있습니다. 또한 Node.js 애플리케이션에서 ZIP 아카이브, OST/PST 메일 데이터 파일, eBook, 마크업 및 PDF 포트폴리오와 같은 컨테이너 구문 분석을 지원합니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 제품군으로 .NET, Java, PHP, Ruby 및 Python SDK를 제공합니다.

콘솔에서 다음 명령을 사용하여 GroupDocs.Parser Cloud를 Node.js 애플리케이션에 설치할 수 있습니다.

npm install groupdocs-parser-cloud 

언급된 단계를 따르기 전에 대시보드에서 클라이언트 ID와 비밀을 얻으십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Node.js에서 REST API를 사용하여 Word 문서 구문 분석 및 이미지 추출

아래 언급된 단계에 따라 프로그래밍 방식으로 Word 문서를 구문 분석하고 이미지를 추출할 수 있습니다.

문서 업로드

먼저 아래 제공된 코드 예제를 사용하여 Word 문서(DOCX)를 클라우드에 업로드합니다.

// API 초기화
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// 파일 읽기
fs.readFile(resourcesFolder, (err, fileStream) => {
  // 파일 업로드 요청 생성
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // 파일 업로드
  fileApi.uploadFile(request);
});

결과적으로 업로드된 DOCX 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.

Node.js를 사용하여 Word 문서에서 이미지 추출

아래에 언급된 단계에 따라 Word 문서에서 모든 이미지를 쉽게 추출할 수 있습니다.

  • ParseApi의 인스턴스 만들기
  • FileInfo의 인스턴스 생성
  • DOCX 파일 경로 설정
  • ImageOptions의 인스턴스 만들기
  • ImageOptions에 FileInfo 할당
  • 이미지 요청 만들기
  • ParseApi.images() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 DOCX 파일에서 이미지를 추출하는 방법을 보여줍니다.

// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 샘플 파일 정보
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// 이미지 옵션 정의
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// 이미지 요청 생성
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// 이미지를 얻다
let result = await parseApi.images(request);

// 이미지 다운로드 경로 표시
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
Node.js를 사용하여 Word 문서에서 이미지 추출

Node.js를 사용하여 Word 문서에서 이미지 추출

추출된 이미지 다운로드

위의 코드 샘플은 추출된 이미지를 클라우드에 저장합니다. 아래 제공된 코드 샘플을 사용하여 이러한 이미지를 다운로드할 수 있습니다.

// 초기화 API
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// 파일 다운로드 요청 생성
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// 파일 다운로드
let response = await fileApi.downloadFile(request);

// 작업 디렉토리에 이미지 파일 저장
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

Node.js를 사용하여 Word 문서에서 텍스트 추출

아래 언급된 단계에 따라 Word 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다.

  • ParseApi의 인스턴스 만들기
  • FileInfo의 인스턴스 생성
  • DOCX 파일 경로 설정
  • TextOptions의 인스턴스 만들기
  • TextOptions에 FileInfo 할당
  • 시작 페이지 번호 설정
  • FormattedTextOptions 정의
  • TextRequest 만들기
  • ParseApi.text() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 DOCX 파일에서 텍스트를 추출하는 방법을 보여줍니다.

// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 샘플 파일 정보
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// 텍스트 요청 생성
let request = new groupdocs_parser_cloud.TextRequest(options);

// 문자 받기
let result = await parseApi.text(request);

// 추출된 텍스트 표시
let pages = result.pages;
pages.forEach(page => console.log(page.text));
Node.js를 사용하여 Word 문서에서 텍스트 추출

Node.js를 사용하여 Word 문서에서 텍스트 추출

온라인 시도

위의 API를 사용하여 개발된 다음 무료 온라인 DOCX 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/docx

결론

이 기사에서는 클라우드에서 Word 문서를 구문 분석하는 방법을 배웠습니다. Node.js에서 REST API를 사용하여 DOCX 파일에서 이미지와 텍스트를 추출하는 방법도 배웠습니다. 이 기사에서는 프로그래밍 방식으로 DOCX 파일을 클라우드에 업로드하고 클라우드에서 이미지 파일을 다운로드하는 방법도 설명했습니다. 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼으로 문의해 주십시오.

또한보십시오