PDF 문서를 쉽게 구문 분석하고 클라우드에서 프로그래밍 방식으로 모든 텍스트를 추출할 수 있습니다. 이 기사에서는 Node.js에서 REST API를 사용하여 PDF 문서에서 텍스트를 추출하는 방법을 배웁니다.
이 문서에서는 다음 항목을 다룹니다.
- 텍스트 추출을 위한 PDF 파서 REST API 및 Node.js SDK
- Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출
- Node.js를 사용하여 PDF 문서에서 페이지 번호로 텍스트 가져오기
- Node.js를 사용하여 PDF로 첨부된 문서에서 텍스트 추출
텍스트 추출을 위한 PDF 파서 REST API 및 Node.js SDK
PDF 문서를 구문 분석하기 위해 GroupDocs.Parser Cloud의 Node.js SDK API를 사용합니다. 50개 이상의 지원되는 문서 형식 유형의 데이터를 구문 분석할 수 있습니다. 또한 Node.js 애플리케이션에서 ZIP 아카이브, OST 메일 데이터 파일, e-books, 마크업 및 PDF 포트폴리오와 같은 컨테이너 구문 분석을 지원합니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 계열 구성원으로 .NET, Java, PHP, Ruby 및 Python SDK를 제공합니다.
콘솔에서 다음 명령을 사용하여 GroupDocs.Parser Cloud를 Node.js 애플리케이션에 설치할 수 있습니다.
npm install groupdocs-parser-cloud
언급된 단계를 따르기 전에 대시보드에서 클라이언트 ID와 암호를 가져오십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Node.js에서 REST API를 사용하여 PDF에서 텍스트 추출
아래에 언급된 간단한 단계에 따라 PDF 문서에서 텍스트를 추출할 수 있습니다.
- 업로드 PDF 파일을 클라우드에
- Node.js를 사용하여 PDF 문서에서 텍스트 추출
문서 업로드
먼저 아래 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드합니다.
// FileApi 구성
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// 파일 업로드 요청 생성
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// 파일 업로드
fileApi.uploadFile(request);
});
결과적으로 업로드된 PDF 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.
Node.js를 사용하여 PDF 문서에서 텍스트 추출
아래 단계에 따라 프로그래밍 방식으로 PDF 문서에서 모든 텍스트를 쉽게 추출할 수 있습니다.
- ParseApi의 인스턴스를 만듭니다.
- FileInfo의 인스턴스를 만듭니다.
- 그런 다음 PDF 파일의 경로를 설정합니다.
- TextOptions의 인스턴스를 만듭니다.
- 그런 다음 TextOptions에 FileInfo를 할당합니다.
- 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 만듭니다.
- 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.
다음 코드 샘플은 Node.js에서 REST API를 사용하여 PDF 문서에서 모든 텍스트를 추출하는 방법을 보여줍니다.
// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// 입력 파일
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// 문자 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);
// 텍스트 추출
let result = await parseApi.text(request);
console.log(result.text);
Node.js를 사용하여 PDF 문서에서 페이지 번호로 텍스트 가져오기
아래 단계에 따라 프로그래밍 방식으로 PDF 파일의 특정 페이지에서 텍스트를 추출할 수 있습니다.
- ParseApi의 인스턴스를 만듭니다.
- FileInfo의 인스턴스를 만듭니다.
- 그런 다음 PDF 파일의 경로를 설정합니다.
- TextOptions의 인스턴스를 만듭니다.
- 그런 다음 TextOptions에 FileInfo를 할당합니다.
- 추출할 시작 페이지 번호와 총 페이지 수를 설정합니다.
- 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 만듭니다.
- 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.
다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 페이지 번호로 텍스트를 추출하는 방법을 보여줍니다.
// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// 입력 파일 경로
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// 텍스트 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);
// 텍스트 추출
let result = await parseApi.text(request);
// 결과 보여줘
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js를 사용하여 PDF로 첨부된 문서에서 텍스트 추출
아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 첨부 파일로 사용할 수 있는 컨테이너 내부의 문서에서 텍스트를 추출할 수 있습니다.
- ParseApi의 인스턴스를 만듭니다.
- FileInfo의 인스턴스를 만듭니다.
- 그런 다음 PDF 파일의 경로를 설정합니다.
- 선택적으로 파일 암호를 제공합니다.
- 이제 ContainerItemInfo의 인스턴스를 생성합니다.
- 그런 다음 첨부 파일의 상대 경로를 설정하십시오.
- TextOptions의 인스턴스를 만듭니다.
- 그런 다음 TextOptions에 FileInfo 및 ContainerItemInfo를 할당합니다.
- 이제 TextOptions를 사용하여 TextRequest의 인스턴스를 생성합니다.
- 마지막으로 TextRequest와 함께 ParseApi.text() 메서드를 호출하여 결과를 얻습니다.
다음 코드 샘플은 REST API를 사용하여 PDF 문서 내의 문서에서 텍스트를 추출하는 방법을 보여줍니다.
// API 초기화
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// 입력 파일
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// 입력 컨테이너 항목
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// 텍스트 옵션 정의
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// 텍스트 요청 만들기
let request = new groupdocs_parser_cloud.TextRequest(options);
// 텍스트 추출
let result = await parseApi.text(request);
console.log(result.text);
온라인 시도
위의 API를 사용하여 개발된 다음 무료 온라인 PDF 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/pdf
결론
이 기사에서는 클라우드에서 PDF 문서를 구문 분석하는 방법을 배웠습니다. 또한 Node.js에서 REST API를 사용하여 PDF 파일의 컨테이너 항목과 페이지 번호별로 텍스트를 추출하는 방법을 살펴보았습니다. 이 문서에서는 프로그래밍 방식으로 PDF 파일을 클라우드에 업로드하는 방법도 설명했습니다. 또한 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼으로 문의해 주십시오.