使用 Python 从文档中提取图像

如果您是一名 Python 开发人员并且想要从文档中提取数据,本文将指导您使用简单的 Python 示例从各种文字处理文档、电子表格、演示文稿和 PDF 文档中提取图像。

今天将讨论以下主题:

图像提取 REST API 和 Python SDK

文档解析Python SDK

这次,我们将使用GroupDocs.Parser Cloud APIPython SDK从不同类型的文档中提取图像。然而,目前,它还提供.NET、Java、PHP、Ruby 和 Node.js SDK 作为其 Cloud API 的文档解析家族成员

该 API 还支持文本和元数据提取,以及从各种文档(如文字处理文档、电子表格、演示文稿、电子邮件、档案、标记和 PDF 文档)中提取图像。

为实现目标,首先从 仪表板 获取您的 APP KEY 和 APP SID,然后再开始执行以下步骤和可用的代码示例。

使用 Python 从 PDF 中提取图像

PDF文档提取图像,从pdf中获取图像或从pdf中提取图像

举个例子,首先我将从 PDF 文档中提取图像。只需按照简单的步骤,即可轻松提取所有图像。

  • 将PDF文档上传到云端。
  • 从上传的文档中提取图像。
  • 下载提取的图像。

上传PDF文档

首先,使用以下任意一种方式将PDF文档上传到云端:

结果,PDF文件将上传到云存储

PDF 文件已在仪表板上传

已上传 PDF 文件至dashboard.groupdocs.cloud/#/files

从上传的 PDF 文档中提取图像

现在您已经完成了从 pdf 中提取所有照片的困难部分。以下Python代码将让您快速从上传的PDF文档中提取所有图像。

# 如何使用 Python 从 Word 文档、Excel 电子表格、演示文稿或 PDF 文档中提取图像。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # 从 https://dashboard.groupdocs.cloud/ 获取 APP SID 和 APP Key
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # 显示提取图像的属性
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

下载提取的图像

提取图像后,您可以通过仪表板或以编程方式从云下载图像。此处显示的图像是从上面显示的 PDF 文档中提取的。

从 PDF 文件中提取的图像

从 PDF 文档中提取的图像

使用 Python 从文档中提取图像

从 pdf、xlsx、pptx 或 docx 文件中提取高质量图像

使用 Python 从 Excel、PPT 或 Word 文档中提取图像

同样,您可以使用上述 PDF 文档的 Python 代码从 Word 文档、电子表格、演示文稿中提取所有图像。您只需使用正确的文档名称和扩展名更改文件路径即可。

# 从 Word 文档、Excel 电子表格、Python 演示文稿中提取图像。
options.file_info.file_path = "documents/doc-with-images.docx"
# 只需根据要求更改文档路径(doc/docx、xls/xlsx、ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

在线从文档中提取图像

如何免费在线从文件或文档中提取图像? Groupdocs.Parser 提供了一个免费在线工具,用于从 word online 中提取图像、从 pdf 中提取所有图像、将所有图片保存在 powerpoint 中或从 xlsx python 中提取图像。只需选择您想要提取 jpg、png、jpeg 或 gif 图像的文档。

在线免费从 pdf 中提取图像在线从 excel 中提取图像从 word 在线中提取图像从 pptx 在线中提取图像 工具是使用Groupdocs.Parser Python API。

结论

在本文中,我们学习了如何使用 Python 以编程方式从 Word、Excel、PowerPoint, PDF 和其他文档中提取图像。代码没有什么区别,我们只需更改源文档路径和类型即可。

要了解更多功能以及有关文档解析 API 的更多信息,请访问 文档 以获取也包含示例的文章。测试突出显示功能的最佳方法是体验 GitHub 中的开源运行示例。如有任何疑问,GroupDocs 支持团队 很乐意为您提供帮助。谢谢

问一个问题

如果您对如何使用Python从PDF、XLSX、PPTX或Word DOCX中提取图像有任何疑问,请随时在免费支持论坛向我们提问)

也可以看看