Python 개발자이고 문서에서 데이터를 추출하려는 경우 이 기사는 간단한 Python 예제를 사용하여 다양한 워드 프로세싱 문서, 스프레드시트, 프레젠테이션 및 PDF 문서에서 이미지를 추출하는 방법을 안내합니다.
오늘 다룰 주제는 다음과 같습니다.
- 이미지 추출 REST API 및 Python SDK
- Python을 사용하여 PDF 문서에서 이미지 추출
- Python을 사용하여 Excel, PPT 또는 Word Docs에서 이미지 추출
이미지 추출 REST API 및 Python SDK
이번에는 GroupDocs.Parser Cloud API의 Python SDK를 사용하여 다양한 유형의 문서에서 이미지를 추출합니다. 그러나 현재는 Cloud API용 문서 구문 분석 제품군으로 .NET, Java, PHP, Ruby 및 Node.js SDK도 제공합니다.
API는 또한 워드 프로세싱 문서, 스프레드시트, 프리젠테이션, 이메일, 아카이브, 마크업 및 PDF 문서와 같은 다양한 종류의 문서에서 이미지 추출과 함께 텍스트 및 메타데이터 추출을 지원합니다.
목표에 도달하면 단계와 사용 가능한 코드 예제를 따르기 전에 먼저 대시보드에서 앱 키와 앱 SID를 가져옵니다.
Python을 사용하여 PDF에서 이미지 추출
예를 들어 먼저 PDF 문서에서 이미지를 추출합니다. 간단한 단계를 따르면 모든 이미지를 쉽게 추출할 수 있습니다.
- PDF 문서를 클라우드에 업로드합니다.
- 업로드된 문서에서 이미지를 추출합니다.
- 추출된 이미지를 다운로드합니다.
PDF 문서 업로드
먼저 다음 방법 중 하나를 사용하여 PDF 문서를 클라우드에 업로드합니다.
- 대시보드 사용.
- 브라우저에서 Upload File API를 사용합니다.
- 문서에 언급된 대로 프로그래밍 방식으로.
결과적으로 PDF 파일이 Cloud Storage에 업로드됩니다.
업로드된 PDF 문서에서 이미지 추출
이제 pdf에서 모든 사진을 추출하는 어려운 부분을 완료했습니다. 다음 Python 코드를 사용하면 업로드된 PDF 문서에서 모든 이미지를 빠르게 추출할 수 있습니다.
# Python에서 Word 문서, Excel 스프레드시트, 프레젠테이션 또는 PDF 문서에서 이미지를 추출하는 방법.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# https://dashboard.groupdocs.cloud/에서 앱 SID 및 앱 키를 얻습니다.
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# 추출된 이미지의 속성 표시
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
추출된 이미지 다운로드
이미지를 추출한 후에는 대시보드에서 또는 프로그래밍 방식으로 클라우드에서 이미지를 다운로드할 수 있습니다. 여기에 표시된 이미지는 위에 표시된 PDF 문서에서 추출됩니다.
Python을 사용하여 Excel, PPT 또는 Word Docs에서 이미지 추출
마찬가지로 위에서 언급한 PDF 문서용 Python 코드를 사용하여 Word 문서, 스프레드시트, 프레젠테이션에서 모든 이미지를 추출할 수 있습니다. 확장자가 있는 올바른 문서 이름으로 파일 경로를 변경하기만 하면 됩니다.
# Word 문서, Excel 스프레드시트, Python 프레젠테이션에서 이미지를 추출합니다.
options.file_info.file_path = "documents/doc-with-images.docx"
# 요구 사항에 따라 문서 경로를 변경하기만 하면 됩니다(doc/docx, xls/xlsx, ppt/pptx, ...).
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Document Online에서 이미지 추출
온라인에서 무료로 파일이나 문서에서 이미지를 추출하는 방법은 무엇입니까? Groupdocs.Parser는 무료 온라인 도구를 제공하여 단어 온라인에서 이미지를 추출하고, pdf에서 모든 이미지를 추출하고, 모든 사진을 파워포인트에 저장하거나 xlsx python에서 이미지를 추출합니다. jpg, png, jpeg 또는 gif 이미지를 추출할 문서를 선택하기만 하면 됩니다.
온라인 무료 pdf에서 이미지 추출, 온라인 엑셀에서 이미지 추출, 워드 온라인에서 이미지 추출 및 pptx 온라인에서 이미지 추출 도구는 다음을 사용하여 개발되었습니다. Groupdocs.Parser 파이썬 API.
결론
이 기사에서는 Python을 사용하여 Word, Excel, PowerPoint, PDF 및 기타 문서에서 프로그래밍 방식으로 이미지를 추출하는 방법을 배웠습니다. 코드에는 차이가 없으며 소스 문서 경로와 유형만 변경하면 됩니다.
더 많은 기능과 문서 구문 분석 API에 대해 자세히 알아보려면 문서에서 예제도 포함된 문서를 참조하세요. 강조 표시된 기능을 테스트하는 가장 좋은 방법은 GitHub에서 오픈 소스 실행 예제를 경험하는 것입니다. 혼란이 있는 경우 GroupDocs 지원 팀이 기꺼이 도와드리겠습니다. 감사해요
질문하기
Python을 사용하여 PDF, XLSX, PPTX 또는 Word DOCX에서 이미지를 추출하는 방법에 대해 질문이 있는 경우 무료 지원 포럼에서 언제든지 문의하십시오. )
또한보십시오
- Node.js를 사용하여 PDF에서 모든 이미지를 추출하고 PDF에서 온라인으로 이미지를 추출합니다.
- PDF에서 자동 데이터 추출 및 온라인 PDF Python에서 데이터 추출
- PDF Python에서 이미지 추출 및 Python을 사용하여 PDF 곡예사에서 이미지 추출
- Node.js에서 REST API를 사용하여 Word 문서에서 특정 데이터를 추출하는 방법
- PDF javascript 및 최고의 프로그래밍 언어에서 데이터를 추출하여 PDF에서 데이터를 추출합니다.
- Python에서 REST API를 사용하여 Word 문서 Python에서 테이블 추출