Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출

PDF 문서를 쉽게 구문 분석하고 클라우드에서 프로그래밍 방식으로 모든 텍스트를 추출할 수 있습니다. 이 기사에서는 Node.js에서 REST API를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 배웁니다.

이 문서에서는 다음 항목을 다룹니다.

텍스트 추출을 위한 PDF 파서 REST API 및 Node.js SDK

PDF 문서를 구문 분석하기 위해 GroupDocs.Parser Cloud의 Node.js SDK API를 사용합니다. 50개 이상의 지원되는 문서 형식 유형의 데이터를 구문 분석할 수 있습니다. 또한 Node.js 애플리케이션에서 ZIP 아카이브, OST 메일 데이터 파일, e-books, 마크업 및 PDF 포트폴리오와 같은 컨테이너 구문 분석을 지원합니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 계열 구성원으로 .NET, Java, PHP, Ruby 및 Python SDK를 제공합니다.

콘솔에서 다음 명령을 사용하여 GroupDocs.Parser Cloud를 Node.js 애플리케이션에 설치할 수 있습니다.

npm install groupdocs-parser-cloud

언급된 단계를 따르기 전에 대시보드에서 클라이언트 ID와 암호를 가져오십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출

아래에 언급된 간단한 단계에 따라 PDF 문서에서 텍스트를 추출할 수 있습니다.

문서 업로드

먼저 아래 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드합니다.

// FileApi 구성
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // 파일 업로드 요청 생성
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // 파일 업로드
  fileApi.uploadFile(request);
});

결과적으로 업로드된 PDF 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.

Node.js를 사용하여 PDF 문서에서 텍스트 추출

아래 단계에 따라 프로그래밍 방식으로 PDF 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다.

  • ParseApi의 인스턴스를 만듭니다.
  • FileInfo의 인스턴스를 만듭니다.
  • 그런 다음 PDF 파일의 경로를 설정합니다.
  • TextOptions의 인스턴스를 만듭니다.
  • 그런 다음 TextOptions에 FileInfo를 할당합니다.
  • 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 만듭니다.
  • 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.

다음 코드 샘플은 Node.js에서 REST API를 사용하여 PDF 문서에서 모든 텍스트를 추출하는 방법을 보여줍니다.

// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 입력 파일
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// 문자 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);

// 텍스트 추출
let result = await parseApi.text(request);
console.log(result.text);
Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출

Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출

Node.js를 사용하여 PDF 문서에서 페이지 번호로 텍스트 가져오기

아래 단계에 따라 프로그래밍 방식으로 PDF 파일의 특정 페이지에서 텍스트를 추출할 수 있습니다.

  • ParseApi의 인스턴스를 만듭니다.
  • FileInfo의 인스턴스를 만듭니다.
  • 그런 다음 PDF 파일의 경로를 설정합니다.
  • TextOptions의 인스턴스를 만듭니다.
  • 그런 다음 TextOptions에 FileInfo를 할당합니다.
  • 추출할 시작 페이지 번호와 총 페이지 수를 설정합니다.
  • 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 만듭니다.
  • 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.

다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 페이지 번호로 텍스트를 추출하는 방법을 보여줍니다.

// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 입력 파일 경로
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// 텍스트 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);

// 텍스트 추출
let result = await parseApi.text(request);

// 결과 보여줘
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js를 사용하여 PDF 문서에서 페이지 번호로 텍스트 가져오기

Node.js를 사용하여 PDF 문서에서 페이지 번호로 텍스트 가져오기

Node.js를 사용하여 PDF로 첨부된 문서에서 텍스트 추출

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 첨부 파일로 사용할 수 있는 컨테이너 내부의 문서에서 텍스트를 추출할 수 있습니다.

  • ParseApi의 인스턴스를 만듭니다.
  • FileInfo의 인스턴스를 만듭니다.
  • 그런 다음 PDF 파일의 경로를 설정합니다.
  • 선택적으로 파일 암호를 제공합니다.
  • 이제 ContainerItemInfo의 인스턴스를 생성합니다.
  • 그런 다음 첨부 파일의 상대 경로를 설정하십시오.
  • TextOptions의 인스턴스를 만듭니다.
  • 그런 다음 TextOptions에 FileInfo 및 ContainerItemInfo를 할당합니다.
  • 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 생성합니다.
  • 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.

다음 코드 샘플은 REST API를 사용하여 PDF 문서 내의 문서에서 텍스트를 추출하는 방법을 보여줍니다.

// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// 입력 파일
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// 입력 컨테이너 항목
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// 텍스트 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);

// 텍스트 추출
let result = await parseApi.text(request);
console.log(result.text);
Node.js를 사용하여 PDF로 첨부된 문서에서 텍스트 추출

Node.js를 사용하여 PDF로 첨부된 문서에서 텍스트 추출

온라인 시도

위의 API를 사용하여 개발된 다음 무료 온라인 PDF 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/pdf

결론

이 기사에서는 클라우드에서 PDF 문서를 구문 분석하는 방법을 배웠습니다. 또한 Node.js에서 REST API를 사용하여 PDF 파일의 컨테이너 항목과 페이지 번호별로 텍스트를 추출하는 방법을 살펴보았습니다. 이 문서에서는 프로그래밍 방식으로 PDF 파일을 클라우드에 업로드하는 방법도 설명했습니다. 또한 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼으로 문의해 주십시오.

또한보십시오