使用 Python 從文檔中提取圖像

如果您是一名 Python 開發人員並且想要從文檔中提取數據,本文將指導您使用簡單的 Python 示例從各種文字處理文檔、電子表格、演示文稿和 PDF 文檔中提取圖像。

今天將討論以下主題:

圖像提取 REST API 和 Python SDK

文檔解析Python SDK

這次,我們將使用GroupDocs.Parser Cloud APIPython SDK從不同類型的文檔中提取圖像。然而,目前,它還提供.NET、Java、PHP、Ruby 和 Node.js SDK 作為其 Cloud API 的文檔解析家族成員

該 API 還支持文本和元數據提取,以及從各種文檔(如文字處理文檔、電子表格、演示文稿、電子郵件、檔案、標記和 PDF 文檔)中提取圖像。

為實現目標,首先從 儀表板 獲取您的 APP KEY 和 APP SID,然後再開始執行以下步驟和可用的代碼示例。

使用 Python 從 PDF 中提取圖像

PDF文檔提取圖像,從pdf中獲取圖像或從pdf中提取圖像

舉個例子,首先我將從 PDF 文檔中提取圖像。只需按照簡單的步驟,即可輕鬆提取所有圖像。

  • 將PDF文檔上傳到雲端。
  • 從上傳的文檔中提取圖像。
  • 下載提取的圖像。

上傳PDF文檔

首先,使用以下任意一種方式將PDF文檔上傳到雲端:

結果,PDF文件將上傳到雲存儲

PDF 文件已在儀表板上傳

已上傳 PDF 文件至dashboard.groupdocs.cloud/#/files

從上傳的 PDF 文檔中提取圖像

現在您已經完成了從 pdf 中提取所有照片的困難部分。以下Python代碼將讓您快速從上傳的PDF文檔中提取所有圖像。

# 如何使用 Python 從 Word 文檔、Excel 電子表格、演示文稿或 PDF 文檔中提取圖像。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # 從 https://dashboard.groupdocs.cloud/ 獲取 APP SID 和 APP Key
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # 顯示提取圖像的屬性
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

下載提取的圖像

提取圖像後,您可以通過儀表板或以編程方式從雲下載圖像。此處顯示的圖像是從上面顯示的 PDF 文檔中提取的。

從 PDF 文件中提取的圖像

從 PDF 文檔中提取的圖像

使用 Python 從文檔中提取圖像

從 pdf、xlsx、pptx 或 docx 文件中提取高質量圖像

使用 Python 從 Excel、PPT 或 Word 文檔中提取圖像

同樣,您可以使用上述 PDF 文檔的 Python 代碼從 Word 文檔、電子表格、演示文稿中提取所有圖像。您只需使用正確的文檔名稱和擴展名更改文件路徑即可。

# 從 Word 文檔、Excel 電子表格、Python 演示文稿中提取圖像。
options.file_info.file_path = "documents/doc-with-images.docx"
# 只需根據要求更改文檔路徑(doc/docx、xls/xlsx、ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

在線從文檔中提取圖像

如何免費在線從文件或文檔中提取圖像? Groupdocs.Parser 提供了一個免費在線工具,用於從 word online 中提取圖像、從 pdf 中提取所有圖像、將所有圖片保存在 powerpoint 中或從 xlsx python 中提取圖像。只需選擇您想要提取 jpg、png、jpeg 或 gif 圖像的文檔。

在線免費從 pdf 中提取圖像在線從 excel 中提取圖像從 word 在線中提取圖像從 pptx 在線中提取圖像 工具是使用Groupdocs.Parser Python API。

結論

在本文中,我們學習瞭如何使用 Python 以編程方式從 Word、Excel、PowerPoint, PDF 和其他文檔中提取圖像。代碼沒有什麼區別,我們只需更改源文檔路徑和類型即可。

要了解更多功能以及有關文檔解析 API 的更多信息,請訪問 文檔 以獲取也包含示例的文章。測試突出顯示功能的最佳方法是體驗 GitHub 中的開源運行示例。如有任何疑問,GroupDocs 支持團隊 很樂意為您提供幫助。謝謝

問一個問題

如果您對如何使用Python從PDF、XLSX、PPTX或Word DOCX中提取圖像有任何疑問,請隨時在免費支持論壇向我們提問)

也可以看看