PDF 문서에서 특정 페이지를 추출해야 하거나 큰 PDF 문서를 더 작은 부분으로 분할해야 할 수 있습니다. Python 개발자는 프로그래밍 방식으로 페이지 번호 또는 페이지 범위별로 PDF 문서에서 특정 페이지를 쉽게 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 PDF 문서에서 특정 페이지를 추출하는 방법을 배웁니다.
이 문서에서는 다음 항목을 다룹니다.
문서 분할기 REST API 및 Python SDK
PDF 문서에서 페이지를 추출하기 위해 GroupDocs.Merger Cloud의 Python SDK API를 사용합니다. 여러 문서를 하나의 문서로 병합하는 데 사용되는 기능이 풍부한 고성능 Cloud SDK입니다. 또한 단일 문서를 여러 문서로 분할할 수 있습니다. SDK는 전체 또는 선호하는 페이지 범위에 대한 페이지 방향을 삭제, 교환, 회전 또는 변경하고 PDF, Word, Powerpoint 및 Excel 워크시트와 같은 지원되는 파일 형식에 대해 쉽게 다른 조작을 수행하는 기능을 제공합니다. 현재 Cloud API용 문서 병합 제품군 구성원으로 .NET, Java, PHP, Ruby, Android 및 Node.js SDK도 제공합니다.
콘솔에서 다음 명령을 사용하여 Python 프로젝트에 GroupDocs.Merger-Cloud를 설치할 수 있습니다.
pip install groupdocs_merger_cloud
단계와 사용 가능한 코드 예제를 시작하기 전에 dashboard에서 클라이언트 ID와 클라이언트 암호를 얻으십시오. ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python에서 REST API를 사용하여 PDF에서 특정 페이지 추출
아래에 언급된 간단한 단계에 따라 PDF 문서에서 특정 페이지를 추출할 수 있습니다.
- 업로드 PDF 파일을 클라우드에
- 페이지 번호별로 특정 페이지 추출 업로드된 PDF 파일에서
- 다운로드 압축을 푼 파일
문서 업로드
먼저 아래 제공된 코드 예제를 사용하여 여러 페이지로 된 PDF 문서를 클라우드에 업로드합니다.
# API 인스턴스 생성
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# 샘플 파일 업로드
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)
결과적으로 PDF 파일이 Cloud Storage에 업로드되고 대시보드의 파일 섹션에서 사용할 수 있습니다.
Python을 사용하여 페이지 번호로 특정 페이지 추출
프로그래밍 방식으로 PDF 문서에서 특정 페이지 또는 여러 페이지를 추출하려면 아래에 언급된 단계를 따르십시오.
- 문서 API 인스턴스 생성
- 분할 옵션 제공
- 입력 파일 경로 설정
- 출력 디렉토리 경로 설정
- 추출할 쉼표로 구분된 페이지 번호를 제공하십시오.
- 모드를 페이지로 설정
- 분할 요청 만들기
- DocumentApi.split() 메서드를 호출하여 결과 얻기
다음 코드 예제는 REST API를 사용하여 PDF 문서에서 특정 페이지 번호를 제공하여 페이지를 추출하는 방법을 보여줍니다.
# API 초기화
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
# 분할 옵션 정의
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"
# 분할 요청 생성
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
추출된 페이지 파일 다운로드
위의 코드 샘플은 추출된 페이지를 별도의 PDF 파일로 클라우드에 저장합니다. 다음 코드 샘플을 사용하여 다운로드할 수 있습니다.
# API 초기화
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# 다운로드 파일 요청
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)
# 다운로드한 파일을 작업 디렉토리로 이동
shutil.move(response, "C:\\Files\\")
Python을 사용하여 페이지 범위별로 페이지 추출
프로그래밍 방식으로 페이지 범위를 제공하여 PDF 문서에서 페이지를 추출하려면 아래에 언급된 단계를 따르십시오.
- 문서 API 인스턴스 생성
- 분할 옵션 제공
- 입력 파일 경로 설정
- 출력 디렉토리 경로 설정
- 추출할 시작 페이지 번호와 끝 페이지 번호를 설정하여 페이지 범위 제공
- 모드를 페이지로 설정
- 분할 요청 만들기
- DocumentApi.split() 메서드를 호출하여 결과 얻기
- DownloadFileRequest 만들기
- FileApi.download\file() 메서드를 호출하여 파일을 다운로드합니다.
다음 코드 예제는 REST API를 사용하여 PDF 문서에서 페이지 범위를 제공하여 페이지를 추출하는 방법을 보여줍니다. 앞에서 언급한 단계에 따라 파일을 업로드하십시오.
# API 초기화
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# 분할 옵션 정의
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"
# 분할 요청 생성
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
# 결과를 표시하고 파일을 하나씩 다운로드
for data in result.documents:
print("Document Url = " + str(data))
# 다운로드 파일 요청 생성
request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
response = file_api.download_file(request)
# 다운로드한 파일을 작업 디렉토리로 이동
shutil.move(response, "C:\\Files\\")
온라인 시도
위의 API를 사용하여 개발된 다음 무료 온라인 PDF 분할 도구를 사용해 보십시오. https://products.groupdocs.app/splitter/pdf
결론
이 기사에서는 Python을 사용하여 클라우드의 PDF 문서에서 특정 페이지를 추출하는 방법을 배웠습니다. 프로그래밍 방식으로 PDF 파일을 클라우드에 업로드한 다음 클라우드에서 추출된 파일을 다운로드하는 방법도 배웠습니다. 문서를 사용하여 GroupDocs.Merger Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼으로 문의해 주십시오.