
프로그램matically PDF 파일에서 텍스트를 추출해야 했던 상황을 겪어본 적이 있나요? PDF 파일에서 텍스트를 프로그램matically 추출하는 것은 대형 문서를 다룰 때 특히 복잡할 수 있습니다. 만약 당신이 Java 개발자이고 신뢰할 수 있는 솔루션을 찾고 있다면, GroupDocs.Parser Cloud SDK for Java는 PDF 파일에서 텍스트를 효율적으로 추출하는 방법을 제공합니다. 이 기사에서는 REST API를 사용하여 Java에서 PDF 파일에서 텍스트를 추출하는 방법을 탐구할 것입니다.
이 문서에서는 다음 주제를 다룰 것입니다:
- Java REST API to Extract Text from PDF Files and SDK Installation
- PDF 파일에서 텍스트를 추출하는 방법 Java를 사용하여 REST API
- PDF에서 페이지 번호 범위로 특정 텍스트 추출하기
Java REST API to Extract Text from PDF Files and SDK Installation
GroupDocs.Parser Cloud SDK for Java는 강력하고 사용자 친화적이며 기능이 풍부한 소프트웨어 개발 키트로, 포괄적인 PDF 파싱 기능을 제공합니다. 포괄적인 API 세트를 통해 50개 이상의 문서 형식에서 텍스트, 메타데이터, 이미지 및 데이터를 손쉽게 추출할 수 있습니다. 또한 C# .NET, Java, PHP, Ruby 및 Python SDK를 문서 파서 가족 구성원으로 제공하여 Cloud API를 지원합니다. SDK는 Java 기반 애플리케이션에 통합되어 개발 프로세스를 단순화하고 생산성을 향상시킬 수 있습니다.
당신은 download API의 JAR 파일을 다운로드하거나 Maven을 사용하여 프로젝트의 pom.xml 파일에 다음 리포지토리 및 의존성을 추가하여 설치할 수 있습니다:
Maven 저장소:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven 의존성:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
다음으로, sign up하여 무료 체험 계정을 만들거나 purchase a subscription plan을 GroupDocs 웹사이트에서 구매하고 get your API key를 받으세요. Client Id와 Client Secret을 얻은 후, 아래의 코드 스니펫을 Java 기반 애플리케이션에 추가하세요:
# 등록 후 https://dashboard.groupdocs.cloud 에서 clientid 및 clientsecret을 받으세요.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
PDF 파일에서 모든 텍스트를 추출하는 방법 Java를 사용하여 REST API
Java에서 GroupDocs.Parser Cloud SDK를 사용하여 PDF 파일에서 텍스트를 추출하는 과정은 간단합니다. 다음은 방법입니다:
파일 업로드
우선 아래에 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드하세요:
package com.groupdocsdev.classes;
import java.io.File;
import java.nio.file.Paths;
import com.groupdocs.cloud.Parser.api.*;
import com.groupdocs.cloud.Parser.client.ApiException;
import com.groupdocs.cloud.Parser.model.*;
import com.groupdocs.cloud.Parser.model.requests.*;
// Java를 사용하여 클라우드 저장소에 파일 업로드하기
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.pdf");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.pdf", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
결과적으로, 업로드된 PDF 파일은 클라우드의 대시보드 [files section][https://dashboard.groupdocs.cloud/files]에서 사용 가능하게 됩니다.
PDF 문서에서 텍스트 추출하기
단계와 예제 코드 스니펫을 따라 GroupDocs.Parser Cloud SDK for Java를 사용하여 Java에서 PDF 파일의 모든 텍스트를 프로그래밍 방식으로 추출하는 방법:
- 우선 필요한 클래스를 Java 파일에 임포트하세요.
- 둘째, ParseApi 클래스의 인스턴스를 만듭니다.
- 셋째, FileInfo 클래스의 인스턴스를 생성합니다.
- 다음으로 PDF 파일의 경로를 입력으로 설정하십시오.
- 그런 다음 TextOptions() 클래스의 인스턴스를 생성합니다.
- 다음으로, fileInfo를 setFileInfo 메서드에 할당합니다.
- 지금 TextRequest() 클래스의 인스턴스를 만들고 TextOptions 매개변수를 전달하세요.
- 마지막으로, ParseApi.text() 메서드를 호출하고 TextRequest 매개변수를 전달하여 결과를 얻습니다.
다음 코드 샘플은 Java에서 REST API를 사용하여 PDF 파일에서 모든 텍스트를 추출하는 방법을 보여줍니다:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// Java에서 PDF 문서에서 텍스트를 추출하는 방법.
public class App {
public static void main(String[] args) {
// Parse API의 인스턴스를 생성하십시오.
ParseApi apiInstance = new ParseApi(configuration);
try {
// 설정을 준비하세요
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// 출력 파일 경로 가져오기
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
아래 이미지에서 출력을 확인할 수 있습니다:

PDF 문서에서 텍스트 추출하기 Java로
PDF에서 지정된 페이지 번호 범위로 특정 텍스트 추출하기
이 섹션은 Java에서 PDF 파일에서 특정 텍스트를 프로그래밍 방식으로 추출하는 단계별 지침과 예제 코드 스니펫을 제공합니다:
- 우선 필요한 클래스를 Java 파일에 임포트하세요.
- 둘째로, ParseApi 클래스의 인스턴스를 만듭니다.
- 셋째, FileInfo 클래스의 인스턴스를 생성합니다.
- 다음으로 PDF 파일의 경로를 입력으로 설정하십시오.
- 그런 다음 TextOptions() 클래스의 인스턴스를 생성합니다.
- 이제 setStartPageNumber 및 setCountPagesToExtract 값을 제공하십시오.
- 그런 다음, fileInfo를 setFileInfo 메서드에 할당합니다.
- 지금 TextRequest() 클래스의 인스턴스를 만들고 TextOptions 매개변수를 전달하세요.
- 마지막으로, ParseApi.text() 메서드를 호출하고 TextRequest 매개변수를 전달하여 결과를 얻습니다.
다음 코드 샘플은 REST API를 사용하여 Java에서 페이지 범위 번호로 PDF 파일에서 특정 텍스트를 추출하는 방법을 보여줍니다:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.client.*;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
import com.groupdocs.cloud.parser.api.ParseApi;
// PDF 파일에서 페이지 범위 번호로 텍스트를 추출하는 방법: Java.
public class App {
public static void main(String[] args) {
// Parse API의 인스턴스를 생성합니다.
ParseApi apiInstance = new ParseApi(configuration);
try {
// 설정을 준비하세요.
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
TextOptions options = new TextOptions();
options.setStartPageNumber(1);
options.setCountPagesToExtract(1);
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// 출력 파일 경로 가져오기
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
무료 온라인 문서 파서
PDF에서 텍스트를 무료로 온라인으로 추출하는 가장 좋은 방법은 무엇인가요? PDF에서 텍스트를 추출하기 위해 online PDF document parser software를 사용해 보세요. 이 PDF Parser 도구는 위에 언급된 Java 파서 라이브러리를 사용하여 개발되었습니다.
결론
결론적으로, GroupDocs.Parser Cloud SDK for Java는 텍스트, 메타데이터 및 이미지를 효율적으로 추출할 수 있게 해주는 Java 개발자에게 귀중한 도구입니다. 다음은 이 기사에서 배운 내용입니다:
- PDF 파일에서 REST API를 사용하여 Java로 모든 텍스트를 추출하는 방법.
- 클라우드에 PDF 파일을 프로그래밍적으로 업로드하는 방법은 Java를 사용하여 수행할 수 있습니다.
- Java를 사용하여 REST API로 PDF에서 콘텐츠를 추출하는 방법.
- 온라인 PDF 텍스트 추출 도구로 PDF 문서를 파싱합니다.
그 외에도, documentation을 사용하여 GroupDocs.Parser Cloud API에 대해 더 많이 배울 수 있습니다. 우리는 또한 웹 브라우저를 통해 API를 시각화하고 상호 작용할 수 있는 API Reference 섹션을 제공합니다. Java SDK의 전체 소스 코드는 Github에서 무료로 사용 가능합니다.
Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.
Ask a question
PDF 파일에서 텍스트를 추출하는 방법에 대한 질문이나 혼란이 있으실 경우, 언제든지 forum을 통해 저희에게 연락해 주시기 바랍니다.
자주 묻는 질문들
How do I extract all text from a PDF file using Java?
PDF 파일에서 모든 텍스트를 추출하려면 Java 애플리케이션에서 GroupDocs.Parser Cloud SDK for Java를 사용하면 됩니다. 이 강력한 SDK는 Java를 사용하여 PDF 파일에서 텍스트를 추출하는 효율적이고 간단한 방법을 제공합니다.
비밀번호로 보호된 PDF 파일에서 GroupDocs.Parser Cloud SDK for Java를 사용하여 텍스트를 추출할 수 있나요?
네, SDK는 비밀번호로 보호된 PDF 파일에서 텍스트 추출을 지원합니다. 추출 과정에서 옵션으로 비밀번호를 제공할 수 있습니다.
PDF 파일 내 특정 페이지에서 텍스트를 추출하는 것이 가능합니까?
네, GroupDocs.Parser Cloud SDK for Java는 텍스트를 추출하고자 하는 페이지 범위 번호를 지정할 수 있습니다. 이렇게 하면 PDF 문서의 특정 섹션에서 텍스트를 쉽게 추출할 수 있습니다.
See Also
여기 여러분이 도움이 될 수 있는 관련 기사 몇 가지가 있습니다: