如果您是一名 Python 開發人員並且想要從文檔中提取數據,本文將指導您使用簡單的 Python 示例從各種文字處理文檔、電子表格、演示文稿和 PDF 文檔中提取圖像。
今天將討論以下主題:
圖像提取 REST API 和 Python SDK
這次,我們將使用GroupDocs.Parser Cloud API的Python SDK從不同類型的文檔中提取圖像。然而,目前,它還提供.NET、Java、PHP、Ruby 和 Node.js SDK 作為其 Cloud API 的文檔解析家族成員。
該 API 還支持文本和元數據提取,以及從各種文檔(如文字處理文檔、電子表格、演示文稿、電子郵件、檔案、標記和 PDF 文檔)中提取圖像。
為實現目標,首先從 儀表板 獲取您的 APP KEY 和 APP SID,然後再開始執行以下步驟和可用的代碼示例。
使用 Python 從 PDF 中提取圖像
舉個例子,首先我將從 PDF 文檔中提取圖像。只需按照簡單的步驟,即可輕鬆提取所有圖像。
- 將PDF文檔上傳到雲端。
- 從上傳的文檔中提取圖像。
- 下載提取的圖像。
上傳PDF文檔
首先,使用以下任意一種方式將PDF文檔上傳到雲端:
結果,PDF文件將上傳到雲存儲
從上傳的 PDF 文檔中提取圖像
現在您已經完成了從 pdf 中提取所有照片的困難部分。以下Python代碼將讓您快速從上傳的PDF文檔中提取所有圖像。
# 如何使用 Python 從 Word 文檔、Excel 電子表格、演示文稿或 PDF 文檔中提取圖像。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# 從 https://dashboard.groupdocs.cloud/ 獲取 APP SID 和 APP Key
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# 顯示提取圖像的屬性
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
下載提取的圖像
提取圖像後,您可以通過儀表板或以編程方式從雲下載圖像。此處顯示的圖像是從上面顯示的 PDF 文檔中提取的。
使用 Python 從 Excel、PPT 或 Word 文檔中提取圖像
同樣,您可以使用上述 PDF 文檔的 Python 代碼從 Word 文檔、電子表格、演示文稿中提取所有圖像。您只需使用正確的文檔名稱和擴展名更改文件路徑即可。
# 從 Word 文檔、Excel 電子表格、Python 演示文稿中提取圖像。
options.file_info.file_path = "documents/doc-with-images.docx"
# 只需根據要求更改文檔路徑(doc/docx、xls/xlsx、ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
在線從文檔中提取圖像
如何免費在線從文件或文檔中提取圖像? Groupdocs.Parser 提供了一個免費在線工具,用於從 word online 中提取圖像、從 pdf 中提取所有圖像、將所有圖片保存在 powerpoint 中或從 xlsx python 中提取圖像。只需選擇您想要提取 jpg、png、jpeg 或 gif 圖像的文檔。
在線免費從 pdf 中提取圖像、在線從 excel 中提取圖像、從 word 在線中提取圖像 和 從 pptx 在線中提取圖像 工具是使用Groupdocs.Parser Python API。
結論
在本文中,我們學習瞭如何使用 Python 以編程方式從 Word、Excel、PowerPoint, PDF 和其他文檔中提取圖像。代碼沒有什麼區別,我們只需更改源文檔路徑和類型即可。
要了解更多功能以及有關文檔解析 API 的更多信息,請訪問 文檔 以獲取也包含示例的文章。測試突出顯示功能的最佳方法是體驗 GitHub 中的開源運行示例。如有任何疑問,GroupDocs 支持團隊 很樂意為您提供幫助。謝謝
問一個問題
如果您對如何使用Python從PDF、XLSX、PPTX或Word DOCX中提取圖像有任何疑問,請隨時在免費支持論壇向我們提問)