재사용하려면 PDF 또는 Word 문서에서 이미지를 추출해야 할 수 있습니다. 클라우드에서 프로그래밍 방식으로 PDF 문서에서 이미지를 쉽게 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 PDF 문서에서 이미지를 추출하는 방법을 설명합니다.
이 문서에서는 다음 항목을 다룹니다.
- 문서 파서 REST API 및 Python SDK
- REST API를 사용하여 PDF에서 이미지 추출
- REST API를 사용하여 페이지 번호 범위별로 이미지 저장
- REST API를 사용하여 첨부 문서에서 이미지 가져오기
문서 파서 REST API 및 Python SDK
PDF 문서에서 이미지를 추출하기 위해 Python SDK of GroupDocs.Parser Cloud API를 사용합니다. 널리 사용되는 모든 문서 유형의 데이터를 구문 분석할 수 있습니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 제품군 구성원으로 .NET, Java, PHP, Ruby 및 Node.js SDK를 제공합니다.
콘솔에서 다음 명령을 사용하여 pip(python용 패키지 설치 프로그램)를 사용하여 Python 프로젝트에 GroupDocs.Parser Cloud를 설치할 수 있습니다.
pip install groupdocs_parser_cloud
단계와 사용 가능한 코드 예제를 시작하기 전에 대시보드에서 클라이언트 ID와 클라이언트 암호를 얻으십시오. 클라이언트 ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python에서 REST API를 사용하여 PDF에서 이미지 추출
아래에 언급된 간단한 단계에 따라 PDF 문서에서 이미지를 추출할 수 있습니다.
- 업로드 PDF 파일을 클라우드에
- Python을 사용하여 PDF 문서에서 이미지 추출
- 다운로드 the extracted images
문서 업로드
먼저 아래 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드합니다.
# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
결과적으로 업로드된 PDF 파일(sample.pdf)은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.
Python을 사용하여 PDF 문서에서 모든 이미지 추출
아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일에서 모든 이미지를 쉽게 추출할 수 있습니다.
- ParseApi 인스턴스 생성
- 이미지 옵션 정의
- PDF 파일 경로 설정
- 이미지 요청 만들기
- ParseApi.images() 메서드를 호출하여 결과 얻기
다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 모든 이미지를 추출하는 방법을 보여줍니다.
# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
추출된 이미지 다운로드
위의 코드 샘플은 추출된 이미지를 클라우드에 저장합니다. 아래 제공된 코드 샘플을 사용하여 이러한 이미지를 다운로드할 수 있습니다.
# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# 이미지 다운로드
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# 다운로드한 파일을 작업 디렉토리로 이동
shutil.move(response, "C:\\Files\\Images")
Python을 사용하여 PDF 문서에서 페이지 번호로 이미지 저장
아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 특정 페이지에서 이미지를 쉽게 추출할 수 있습니다.
- ParseApi 인스턴스 생성
- 이미지 옵션 정의
- PDF 파일의 경로를 제공하십시오
- 시작 페이지 번호 설정
- 추출할 페이지 수 설정
- 이미지 요청 만들기
- ParseApi.images() 메서드를 호출하여 결과 얻기
다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 페이지 번호 범위별로 이미지를 추출하는 방법을 보여줍니다. 추출된 이미지를 다운로드하려면 앞에서 언급한 단계를 따르십시오.
# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# 페이지 범위 정의
options.start_page_number = 1
options.count_pages_to_extract = 1
# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Python을 사용하여 PDF가 첨부된 문서에서 이미지 가져오기
아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 첨부 파일로 사용할 수 있는 컨테이너 내부의 문서에서 이미지를 추출할 수 있습니다.
- ParseApi 인스턴스 생성
- 이미지 옵션 정의
- PDF 파일 경로 설정
- ContainerItemInfo 정의
- 내부 문서의 상대 경로 제공
- 시작 페이지 번호 설정
- 추출할 페이지 수 설정
- 이미지 요청 만들기
- ParseApi.images() 메서드를 호출하여 결과 얻기
다음 코드 샘플은 REST API를 사용하여 PDF 문서 내의 문서에서 이미지를 추출하는 방법을 보여줍니다. 추출된 이미지를 다운로드하려면 앞에서 언급한 단계를 따르십시오.
# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# 컨테이너 항목 설정
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# 페이지 범위 정의
options.start_page_number = 2
options.count_pages_to_extract = 1
# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
온라인 시도
위의 API를 사용하여 개발된 다음 무료 온라인 PDF 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/pdf
결론
이 기사에서는 클라우드의 PDF 문서에서 이미지를 추출하는 방법을 배웠습니다. 이 문서에서는 프로그래밍 방식으로 클라우드에 PDF 파일을 업로드하는 방법도 설명했습니다. 또한 SDK를 사용하여 추출된 이미지를 다운로드하는 방법도 배웠습니다. 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼에 문의해 주십시오.