Python을 사용하여 문서에서 이미지 추출

Python 개발자이고 문서에서 데이터를 추출하려는 경우 이 기사는 간단한 Python 예제를 사용하여 다양한 워드 프로세싱 문서, 스프레드시트, 프레젠테이션 및 PDF 문서에서 이미지를 추출하는 방법을 안내합니다.

오늘 다룰 주제는 다음과 같습니다.

이미지 추출 REST API 및 Python SDK

문서 구문 분석 Python SDK

이번에는 GroupDocs.Parser Cloud APIPython SDK를 사용하여 다양한 유형의 문서에서 이미지를 추출합니다. 그러나 현재는 Cloud API용 문서 구문 분석 제품군으로 .NET, Java, PHP, Ruby 및 Node.js SDK도 제공합니다.

API는 또한 워드 프로세싱 문서, 스프레드시트, 프리젠테이션, 이메일, 아카이브, 마크업 및 PDF 문서와 같은 다양한 종류의 문서에서 이미지 추출과 함께 텍스트 및 메타데이터 추출을 지원합니다.

목표에 도달하면 단계와 사용 가능한 코드 예제를 따르기 전에 먼저 대시보드에서 앱 키와 앱 SID를 가져옵니다.

Python을 사용하여 PDF에서 이미지 추출

이미지를 추출하는 PDF 문서, pdf에서 이미지 가져오기 또는 pdf에서 이미지 추출

예를 들어 먼저 PDF 문서에서 이미지를 추출합니다. 간단한 단계를 따르면 모든 이미지를 쉽게 추출할 수 있습니다.

  • PDF 문서를 클라우드에 업로드합니다.
  • 업로드된 문서에서 이미지를 추출합니다.
  • 추출된 이미지를 다운로드합니다.

PDF 문서 업로드

먼저 다음 방법 중 하나를 사용하여 PDF 문서를 클라우드에 업로드합니다.

결과적으로 PDF 파일이 Cloud Storage에 업로드됩니다.

대시보드에 업로드된 PDF 파일

dashboard.groupdocs.cloud/#/files에 업로드된 PDF 파일

업로드된 PDF 문서에서 이미지 추출

이제 pdf에서 모든 사진을 추출하는 어려운 부분을 완료했습니다. 다음 Python 코드를 사용하면 업로드된 PDF 문서에서 모든 이미지를 빠르게 추출할 수 있습니다.

# Python에서 Word 문서, Excel 스프레드시트, 프레젠테이션 또는 PDF 문서에서 이미지를 추출하는 방법.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # https://dashboard.groupdocs.cloud/에서 앱 SID 및 앱 키를 얻습니다.
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # 추출된 이미지의 속성 표시
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

추출된 이미지 다운로드

이미지를 추출한 후에는 대시보드에서 또는 프로그래밍 방식으로 클라우드에서 이미지를 다운로드할 수 있습니다. 여기에 표시된 이미지는 위에 표시된 PDF 문서에서 추출됩니다.

PDF 파일에서 추출한 이미지

PDF 문서에서 추출한 이미지

Python을 사용하여 문서에서 이미지 추출

pdf, xlsx, pptx 또는 docx 파일에서 고품질 이미지 추출

Python을 사용하여 Excel, PPT 또는 Word Docs에서 이미지 추출

마찬가지로 위에서 언급한 PDF 문서용 Python 코드를 사용하여 Word 문서, 스프레드시트, 프레젠테이션에서 모든 이미지를 추출할 수 있습니다. 확장자가 있는 올바른 문서 이름으로 파일 경로를 변경하기만 하면 됩니다.

# Word 문서, Excel 스프레드시트, Python 프레젠테이션에서 이미지를 추출합니다.
options.file_info.file_path = "documents/doc-with-images.docx"
# 요구 사항에 따라 문서 경로를 변경하기만 하면 됩니다(doc/docx, xls/xlsx, ppt/pptx, ...).
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Document Online에서 이미지 추출

온라인에서 무료로 파일이나 문서에서 이미지를 추출하는 방법은 무엇입니까? Groupdocs.Parser는 무료 온라인 도구를 제공하여 단어 온라인에서 이미지를 추출하고, pdf에서 모든 이미지를 추출하고, 모든 사진을 파워포인트에 저장하거나 xlsx python에서 이미지를 추출합니다. jpg, png, jpeg 또는 gif 이미지를 추출할 문서를 선택하기만 하면 됩니다.

온라인 무료 pdf에서 이미지 추출, 온라인 엑셀에서 이미지 추출, 워드 온라인에서 이미지 추출pptx 온라인에서 이미지 추출 도구는 다음을 사용하여 개발되었습니다. Groupdocs.Parser 파이썬 API.

결론

이 기사에서는 Python을 사용하여 Word, Excel, PowerPoint, PDF 및 기타 문서에서 프로그래밍 방식으로 이미지를 추출하는 방법을 배웠습니다. 코드에는 차이가 없으며 소스 문서 경로와 유형만 변경하면 됩니다.

더 많은 기능과 문서 구문 분석 API에 대해 자세히 알아보려면 문서에서 예제도 포함된 문서를 참조하세요. 강조 표시된 기능을 테스트하는 가장 좋은 방법은 GitHub에서 오픈 소스 실행 예제를 경험하는 것입니다. 혼란이 있는 경우 GroupDocs 지원 팀이 기꺼이 도와드리겠습니다. 감사해요

질문하기

Python을 사용하여 PDF, XLSX, PPTX 또는 Word DOCX에서 이미지를 추출하는 방법에 대해 질문이 있는 경우 무료 지원 포럼에서 언제든지 문의하십시오. )

또한보십시오