PDF 문서에서 이미지 추출

재사용하려면 PDF 또는 Word 문서에서 이미지를 추출해야 할 수 있습니다. 클라우드에서 프로그래밍 방식으로 PDF 문서에서 이미지를 쉽게 추출할 수 있습니다. 이 기사에서는 Python에서 REST API를 사용하여 PDF 문서에서 이미지를 추출하는 방법을 설명합니다.

이 문서에서는 다음 항목을 다룹니다.

문서 파서 REST API 및 Python SDK

PDF 문서에서 이미지를 추출하기 위해 Python SDK of GroupDocs.Parser Cloud API를 사용합니다. 널리 사용되는 모든 문서 유형의 데이터를 구문 분석할 수 있습니다. SDK를 사용하여 템플릿으로 텍스트, 이미지, 파싱 데이터를 추출할 수 있습니다. 또한 Cloud API용 문서 파서 제품군 구성원으로 .NET, Java, PHP, Ruby 및 Node.js SDK를 제공합니다.

콘솔에서 다음 명령을 사용하여 pip(python용 패키지 설치 프로그램)를 사용하여 Python 프로젝트에 GroupDocs.Parser Cloud를 설치할 수 있습니다.

pip install groupdocs_parser_cloud

단계와 사용 가능한 코드 예제를 시작하기 전에 대시보드에서 클라이언트 ID와 클라이언트 암호를 얻으십시오. 클라이언트 ID와 시크릿이 있으면 아래와 같이 코드를 추가합니다.

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python에서 REST API를 사용하여 PDF에서 이미지 추출

아래에 언급된 간단한 단계에 따라 PDF 문서에서 이미지를 추출할 수 있습니다.

문서 업로드

먼저 아래 제공된 코드 예제를 사용하여 PDF 문서를 클라우드에 업로드합니다.

# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

결과적으로 업로드된 PDF 파일(sample.pdf)은 클라우드 대시보드의 파일 섹션에서 사용할 수 있습니다.

Python을 사용하여 PDF 문서에서 모든 이미지 추출

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일에서 모든 이미지를 쉽게 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • 이미지 옵션 정의
  • PDF 파일 경로 설정
  • 이미지 요청 만들기
  • ParseApi.images() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 모든 이미지를 추출하는 방법을 보여줍니다.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
PDF 문서에서 모든 이미지를 추출합니다.

PDF 문서에서 모든 이미지를 추출합니다.

추출된 이미지 다운로드

위의 코드 샘플은 추출된 이미지를 클라우드에 저장합니다. 아래 제공된 코드 샘플을 사용하여 이러한 이미지를 다운로드할 수 있습니다.

# API 초기화
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# 이미지 다운로드 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# 다운로드한 파일을 작업 디렉토리로 이동
shutil.move(response, "C:\\Files\\Images")

Python을 사용하여 PDF 문서에서 페이지 번호로 이미지 저장

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 특정 페이지에서 이미지를 쉽게 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • 이미지 옵션 정의
  • PDF 파일의 경로를 제공하십시오
  • 시작 페이지 번호 설정
  • 추출할 페이지 수 설정
  • 이미지 요청 만들기
  • ParseApi.images() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 PDF 문서에서 페이지 번호 범위별로 이미지를 추출하는 방법을 보여줍니다. 추출된 이미지를 다운로드하려면 앞에서 언급한 단계를 따르십시오.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# 페이지 범위 정의
options.start_page_number = 1
options.count_pages_to_extract = 1

# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
PDF 문서에서 페이지 번호 범위별로 이미지를 추출합니다.

PDF 문서에서 페이지 번호 범위별로 이미지를 추출합니다.

Python을 사용하여 PDF가 첨부된 문서에서 이미지 가져오기

아래 언급된 단계에 따라 프로그래밍 방식으로 PDF 파일의 첨부 파일로 사용할 수 있는 컨테이너 내부의 문서에서 이미지를 추출할 수 있습니다.

  • ParseApi 인스턴스 생성
  • 이미지 옵션 정의
  • PDF 파일 경로 설정
  • ContainerItemInfo 정의
  • 내부 문서의 상대 경로 제공
  • 시작 페이지 번호 설정
  • 추출할 페이지 수 설정
  • 이미지 요청 만들기
  • ParseApi.images() 메서드를 호출하여 결과 얻기

다음 코드 샘플은 REST API를 사용하여 PDF 문서 내의 문서에서 이미지를 추출하는 방법을 보여줍니다. 추출된 이미지를 다운로드하려면 앞에서 언급한 단계를 따르십시오.

# API 초기화
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 이미지 옵션 정의
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# 컨테이너 항목 설정
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# 페이지 범위 정의
options.start_page_number = 2
options.count_pages_to_extract = 1

# 요청 생성
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
PDF 문서에 첨부된 문서에서 이미지 추출

PDF 문서에 첨부된 문서에서 이미지를 추출합니다.

온라인 시도

위의 API를 사용하여 개발된 다음 무료 온라인 PDF 구문 분석 도구를 사용해 보십시오. https://products.groupdocs.app/parser/pdf

결론

이 기사에서는 클라우드의 PDF 문서에서 이미지를 추출하는 방법을 배웠습니다. 이 문서에서는 프로그래밍 방식으로 클라우드에 PDF 파일을 업로드하는 방법도 설명했습니다. 또한 SDK를 사용하여 추출된 이미지를 다운로드하는 방법도 배웠습니다. 문서를 사용하여 GroupDocs.Parser Cloud API에 대해 자세히 알아볼 수 있습니다. 또한 브라우저를 통해 직접 API를 시각화하고 상호 작용할 수 있는 API 참조 섹션을 제공합니다. 모호한 점이 있으면 언제든지 포럼에 문의해 주십시오.

또한보십시오