PDF에서 텍스트 추출하기 - Node.js - 텍스트 추출기

텍스트를 PDF 파일에서 추출하는 것은 콘텐츠 인덱싱, 자동화 및 데이터 분석에 필수적입니다. GroupDocs.Parser Cloud SDK for Node.js를 사용하면 간단한 RESTful API를 통해 프로그램matically PDF에서 일반 텍스트 또는 구조화된 텍스트를 추출할 수 있습니다 — 무거운 도구나 수동 파싱에 의존하지 않고.

PDF에서 텍스트를 추출하는 이유는 무엇인가요?

PDF에서 텍스트를 추출하는 것은 다음과 같은 이유로 중요합니다:

  • 문서 관리 또는 OCR 파이프라인 구축.
  • 계약, 인보이스 및 보고서에서 데이터 수집 자동화.
  • 디지털 아카이브에 대한 전체 텍스트 검색 활성화.
  • AI/ML 모델을 위한 콘텐츠 청소 및 구조화.

다음 주제를 더 자세히 다루어 보겠습니다:

텍스트 추출 REST API

The GroupDocs.Parser Cloud SDK for Node.js는 GroupDocs.Parser Cloud REST API와 상호 작용하기 위한 경량 고성능 래퍼입니다. 개발자가 다음과 같은 구조화되거나 비구조화된 콘텐츠를 추출할 수 있도록 합니다:

  • 텍스트 (전체 문서, 특정 페이지 또는 선택된 영역)
  • Images
  • 메타데이터
  • 문서 필드
  • 테이블이나 양식에서의 구조화된 데이터

수많은 형식을 지원합니다 — PDF, Word, Excel, PowerPoint, MSG, ZIP 등을 포함합니다.

Prerequisites GroupDocs.Parser Cloud SDK를 Node.js에 설치하세요:

npm install groupdocs-parser-cloud

GroupDocs.Cloud Dashboard에서 계정을 생성하여 인증을 위한 Client ID와 Client Secret을 획득하세요. 더 자세한 정보는 이 article을 방문해 주세요.

PDF에서 Node.js를 사용하여 텍스트 추출하는 방법

다음 단계에 따라 Node.js SDK를 사용하여 PDF에서 텍스트를 추출하세요.

단계 1: 구성 설정:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

Step 2: PDF 파일 입력 구성: TextRequest 클래스의 객체를 초기화하고 TextOptions 클래스의 인스턴스를 전달하세요.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

3단계: PDF에서 텍스트 추출하기: text 메서드를 호출하면 PDF의 일반 텍스트 콘텐츠가 반환됩니다.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 기타 예제를 보려면 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node 를 방문해 주십시오.
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

위 코드 샘플의 출력을 아래 이미에서 확인할 수 있습니다:

pdf 텍스트 추출기

PDF에서 cURL을 통해 텍스트 추출하기

명령줄 작업을 선호하시거나 스크립트에 통합하고 싶으신가요? GroupDocs.Parser REST API를 사용하여 cURL로 텍스트를 추출할 수 있습니다.

1단계 – 액세스 토큰 생성:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Step 2 – REST API를 통한 이미지 추출:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 을 생성한 토큰으로 교체하십시오.

cURL를 GroupDocs.Parser API와 함께 사용하는 이점

  • No SDK Required: Use REST directly for quick integration.
  • 플랫폼 독립적: 모든 운영 체제나 언어와 함께 작동합니다.
  • CI/CD 파이프라인에 적합: DevOps 환경에서 텍스트 추출을 자동화합니다.
  • 경량: cURL 이상의 설치가 필요 없습니다.

온라인 텍스트 추출기

코드 없는 솔루션을 찾고 있다면, GroupDocs.Parser Cloud에서 제공하는 무료 온라인 PDF Text Extractor를 사용하세요.

온라인 이미지 추출기

결론

GroupDocs.Parser Cloud SDK for Node.js는 PDF에서 텍스트를 추출하는 것을 쉽게 만들어 줍니다. 전체 콘텐츠 파싱, 데이터 마이닝 또는 문서 자동화가 필요하든 간에 관계없이 말이죠. RESTful 호출 및 cURL 통합을 지원하는 이 API는 Node.js 또는 기타 환경에서 현대적이고 확장 가능한 문서 처리 앱을 구축하는 데 이상적입니다.

📚 추가 자료

자주 묻는 질문 – FAQs

Word에서 이미지를 추출하려면 어떻게 하나요?

PDF 파일에서 프로그래밍 방식으로 텍스트를 추출하려면 GroupDocs.Parser Cloud SDKs를 사용할 수 있습니다. 자세한 내용은 이 link를 방문하세요.

가격 모델이란 무엇입니까?

우리는 단일 선불 요금제를 제공합니다. 추가 정보는 pricing guide를 방문해 주시기 바랍니다.

추천 기사