Word 문서에서 텍스트 추출하기 Node.js API - 텍스트 추출기

Microsoft Word 문서에서 자동화, 색인 생성 또는 분석을 위해 일반 텍스트 또는 구조화된 텍스트를 추출해야 하는 경우, GroupDocs.Parser Cloud SDK for Node.js는 신뢰할 수 있는 RESTful 솔루션을 제공합니다. 몇 줄의 코드만으로 .doc.docx 파일에서 콘텐츠를 추출할 수 있으며, Microsoft Word를 설치하거나 서버 측 도구를 사용할 필요가 없습니다.

워드 문서 텍스트 추출 API

The GroupDocs.Parser Cloud SDK for Node.js는 추출을 간소화하는 REST API의 래퍼입니다.

  • 텍스트 (전체 문서 또는 선택된 페이지).
  • 테이블 및 구조화된 데이터.
  • 메타데이터 및 임베디드 필드.
  • 첨부파일 및 이미지.

다양한 형식을 지원합니다. 여기에는 PDF, Word, Excel, PowerPoint, MSG, ZIP 등이 포함됩니다.

선행 조건

  1. GroupDocs.Cloud Dashboard에서 계정을 생성하세요.
  2. 클라이언트 ID와 클라이언트 비밀을 가져오세요.
  3. SDK 설치:
npm install groupdocs-parser-cloud

You may consider visiting the following article to learn more about, 클라이언트 ID 및 클라이언트 비밀을 인증을 위해 얻는 방법.

Word Document Text Extraction API

다음 단계에 따라 Node.js SDK를 사용하여 Word 문서에서 텍스트를 추출하는 방법에 대한 정보를 확인하십시오.

1단계: 구성 초기화:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

2단계: 파일 정보 및 텍스트 옵션 설정: TextRequest 클래스의 객체를 초기화하고 TextOptions 클래스의 인스턴스를 전달합니다.

const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

단계 3: Word 파일에서 텍스트 추출: 텍스트를 호출하십시오 text 메서드를 사용하면 Word 문서에서 일반 텍스트 콘텐츠가 반환됩니다.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// 더 많은 예시를 보려면 https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node 를 방문하십시오.
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

위의 코드 샘플의 출력을 아래 이미지에서 확인할 수 있습니다:

extract word document text

Word에서 cURL을 사용하여 텍스트 추출하기

명령줄 작업을 선호하거나 스크립트에 통합하고 싶습니까? cURL 및 GroupDocs.Parser REST API를 사용하여 Word 문서에서 텍스트를 추출할 수 있습니다.

1단계 – 액세스 토큰 생성:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Step 2 – Extract Text via API Call:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"sample.docx\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • 을(를) 생성한 것으로 교체하세요.

cURL를 GroupDocs.Parser API와 함께 사용하는 이점

  • ✅ SDK 설치 필요 없음.
  • ✅ 크로스 플랫폼 자동화.
  • ✅ 셸 스크립트 및 CI 파이프라인에 적합합니다.
  • ✅ 효율적이고 가벼움.

온라인 텍스트 추출기

우리의 Free Online Word Text Extractor를 사용하세요. 이는 GroupDocs.Parser Cloud로 구동되며, 코드가 필요 없는 옵션을 선호하는 경우에 적합합니다.

온라인 단어 텍스트 추출기

결론

GroupDocs.Parser Cloud SDK for Node.js를 사용하면 자동화, 인덱싱 또는 데이터 마이닝을 위해 Word 문서(.docx 또는 .doc)에서 텍스트를 쉽게 추출할 수 있습니다. SDK와 REST API는 Node.js 또는 직접 cURL 명령을 선호하든 유연하고 확장 가능한 옵션을 제공합니다.

📚 추가 자료

자주 묻는 질문 – FAQs

  1. DOCX 테이블에서 텍스트를 추출할 수 있나요?
  • 네. GroupDocs.Parser는 테이블 셀 및 레이아웃 데이터를 포함한 구조화된 콘텐츠를 추출할 수 있습니다.
  1. Microsoft Word가 필요합니까?
  • 아니요. API는 클라우드에서 실행되며 Microsoft Office에 의존하지 않습니다.
  1. 가격 모델이란 무엇입니까?
  • 우리는 단일 지불 기반의 요금제를 제공합니다. 자세한 정보는 pricing guide를 방문해 주십시오.
  1. 무료 체험을 받을 수 있나요?
  • 네. 무료 체험 계정에 가입하면 매달 150회의 API 호출을 무료로 할 수 있습니다. 자세한 내용은 pricing guide를 방문하십시오.

추천 기사