문서 구문 분석 – Java의 PDF 파일에서 텍스트 추출

프로그래밍 방식으로 PDF 파일에서 텍스트를 추출해야 하는 상황에 직면한 적이 있습니까? 프로그래밍 방식으로 PDF 파일에서 텍스트를 추출하는 것은 특히 대용량 문서를 처리할 때 복잡한 작업이 될 수 있습니다. Java 개발자이고 신뢰할 수 있는 솔루션을 찾고 있다면 Java용 GroupDocs.Parser Cloud SDK는 PDF 파일에서 텍스트를 추출하는 효율적인 방법을 제공합니다. 이 기사에서는 REST API를 사용하여 Java에서 PDF 파일의 텍스트를 추출하는 방법을 살펴봅니다.

이 문서에서는 다음 항목을 다룹니다.

PDF 파일에서 텍스트를 추출하는 Java REST API 및 SDK 설치

GroupDocs.Parser Cloud SDK for Java는 포괄적인 PDF 구문 분석 기능을 제공하는 강력하고 사용자 친화적이며 기능이 풍부한 소프트웨어 개발 키트입니다. 포괄적인 API 세트를 사용하여 텍스트, 메타데이터, 이미지를 쉽게 추출하고 50개 이상의 문서 형식 유형에서 데이터를 구문 분석할 수 있습니다. 또한 C# .NET, Java, PHP, Ruby 및 Python SDK를 Cloud API용 문서 파서 제품군 구성원으로 제공합니다. SDK는 Java 기반 애플리케이션에 통합되어 개발 프로세스를 단순화하고 생산성을 향상시킬 수 있습니다.

API의 JAR 파일을 다운로드하거나 프로젝트의 pom.xml 파일에 다음 리포지토리 및 종속성을 추가하여 Maven을 사용하여 설치할 수 있습니다.

메이븐 저장소:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

메이븐 종속성:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

다음으로 무료 평가판 계정에 가입하거나 GroupDocs 웹사이트에서 구독 요금제를 구입하고 API 키를 받습니다. 클라이언트 ID와 클라이언트 암호가 있으면 Java 기반 애플리케이션에 아래 코드 스니펫을 추가합니다.

# 등록 후 https://dashboard.groupdocs.cloud에서 client_id 및 client_secret을 가져옵니다.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

REST API를 사용하여 Java에서 PDF 파일의 모든 텍스트를 추출하는 방법

GroupDocs.Parser Cloud SDK를 사용하여 Java의 PDF 파일에서 텍스트를 추출하는 것은 간단한 프로세스입니다. 방법은 다음과 같습니다.

  • 업로드 PDF 파일을 클라우드로
  • Java를 사용하여 PDF에서 추출 텍스트

파일 업로드

먼저 아래 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드합니다.

package com.groupdocsdev.classes;

import java.io.File;
import java.nio.file.Paths;

import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;

// Java를 사용하여 Cloud Storage에 파일 업로드
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

결과적으로 업로드된 PDF 파일은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.

Java의 PDF 문서에서 텍스트 추출

Java용 GroupDocs.Parser Cloud SDK를 사용하여 Java에서 프로그래밍 방식으로 PDF 파일에서 모든 텍스트를 추출하려면 단계 및 예제 코드 스니펫을 따르십시오.

  • 먼저 필요한 클래스를 Java 파일로 가져옵니다.
  • 둘째, ParseApi 클래스의 인스턴스를 만듭니다.
  • 셋째, FileInfo 클래스의 인스턴스를 생성합니다.
  • 다음으로 PDF 파일의 경로를 입력으로 설정합니다.
  • 그런 다음 TextOptions() 클래스의 인스턴스를 만듭니다.
  • 다음으로 setFileInfo 메서드에 fileInfo를 할당합니다.
  • 이제 TextRequest() 클래스의 인스턴스를 만들고 TextOptions 매개 변수를 전달합니다.
  • 마지막으로 ParseApi.text() 메서드를 호출하고 TextRequest 매개 변수를 전달하여 결과를 얻습니다.

다음 코드 샘플은 Java에서 REST API를 사용하여 PDF 파일에서 모든 텍스트를 추출하는 방법을 보여줍니다.

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java의 PDF 문서에서 텍스트를 추출하는 방법.
public class App {

	public static void main(String[] args) {
		
		// Parse API의 인스턴스 생성
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 설정 준비
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);

			// 출력 파일 경로 가져오기
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

아래 이미지에서 출력을 볼 수 있습니다.

PDF 문서에서 Java 추출 텍스트

Java의 PDF 문서에서 텍스트 추출

페이지 번호 범위별로 Java의 PDF에서 특정 텍스트 추출

이 섹션에서는 Java에서 프로그래밍 방식으로 PDF 파일에서 특정 텍스트를 추출하기 위한 단계별 지침과 예제 코드 스니펫을 제공합니다.

  • 먼저 필요한 클래스를 Java 파일로 가져옵니다.
  • 둘째, ParseApi 클래스의 인스턴스를 만듭니다.
  • 셋째, FileInfo 클래스의 인스턴스를 생성합니다.
  • 다음으로 PDF 파일의 경로를 입력으로 설정합니다.
  • 그런 다음 TextOptions() 클래스의 인스턴스를 만듭니다.
  • 이제 setStartPageNumber 및 setCountPagesToExtract 값을 제공합니다.
  • 그런 다음 setFileInfo 메서드에 fileInfo를 할당합니다.
  • 이제 TextRequest() 클래스의 인스턴스를 만들고 TextOptions 매개 변수를 전달합니다.
  • 마지막으로 ParseApi.text() 메서드를 호출하고 TextRequest 매개 변수를 전달하여 결과를 얻습니다.

다음 코드 샘플은 REST API를 사용하여 Java의 페이지 범위 번호별로 PDF 파일에서 특정 텍스트를 추출하는 방법을 보여줍니다.

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;

// Java에서 페이지 범위 번호로 PDF 파일에서 텍스트를 추출하는 방법.
public class App {

	public static void main(String[] args) {
		
		// Parse API의 인스턴스 생성
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 설정 준비
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");
			TextOptions options = new TextOptions();
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(1);
			options.setFileInfo(fileInfo);

			TextRequest request = new TextRequest(options);
			TextResult response = apiInstance.text(request);
				
			// 출력 파일 경로 가져오기
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

무료 온라인 문서 파서

온라인에서 무료로 PDF에서 텍스트를 추출하는 가장 좋은 방법은 무엇입니까? PDF에서 텍스트를 추출하려면 온라인 PDF 문서 파서 소프트웨어를 사용해 보십시오. 이 PDF 파서 도구는 위에서 언급한 Java 파서 라이브러리를 사용하여 개발되었습니다.

결론

결론적으로 Java용 GroupDocs.Parser Cloud SDK는 텍스트, 메타데이터 및 이미지를 효율적으로 추출할 수 있는 Java 개발자에게 유용한 도구입니다. 이 기사에서 배운 내용은 다음과 같습니다.

  • Java에서 REST API를 사용하여 PDF 파일에서 모든 텍스트를 추출하는 방법
  • 프로그래밍 방식으로 Java를 사용하여 PDF 파일을 클라우드에 업로드합니다.
  • REST API를 사용하여 Java의 PDF에서 콘텐츠를 추출하는 방법
  • PDF 문서를 분석하기 위한 온라인 PDF 텍스트 추출 도구.

그 외에도 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. Java SDK의 전체 소스 코드는 Github에서 무료로 사용할 수 있습니다.

마지막으로 우리는 계속해서 다른 파일 형식으로 새 블로그 기사를 작성하고 REST API를 사용하여 구문 분석합니다. 따라서 최신 업데이트에 대해 문의하십시오.

질문하기

PDF 파일에서 텍스트를 추출하는 방법에 대해 질문이나 혼동이 있는 경우 포럼을 통해 언제든지 문의하십시오.

FAQ

Java를 사용하여 PDF 파일에서 모든 텍스트를 어떻게 추출합니까?

Java 애플리케이션에서 GroupDocs.Parser Cloud SDK for Java를 사용하여 PDF 파일에서 모든 텍스트를 추출할 수 있습니다. 이 강력한 SDK는 Java를 사용하여 PDF 파일에서 텍스트를 추출하는 효율적이고 직접적인 방법을 제공합니다.

GroupDocs.Parser Cloud SDK for Java를 사용하여 암호로 보호된 PDF 파일에서 텍스트를 추출할 수 있습니까?

예, SDK는 암호로 보호된 PDF 파일에서 텍스트 추출을 지원합니다. 추출 프로세스 중에 암호를 옵션으로 제공할 수 있습니다.

PDF 파일 내의 특정 페이지에서 텍스트를 추출할 수 있습니까?

예, GroupDocs.Parser Cloud SDK for Java를 사용하면 텍스트를 추출하려는 페이지 범위 번호를 지정할 수 있습니다. 이러한 방식으로 PDF 문서의 특정 섹션에서 텍스트를 쉽게 추출할 수 있습니다.

또한보십시오

다음은 도움이 될 수 있는 몇 가지 관련 문서입니다.