如果您是一名 Python 开发人员并且想要从文档中提取数据,本文将指导您使用简单的 Python 示例从各种文字处理文档、电子表格、演示文稿和 PDF 文档中提取图像。
今天将讨论以下主题:
图像提取 REST API 和 Python SDK
这次,我们将使用GroupDocs.Parser Cloud API的Python SDK从不同类型的文档中提取图像。然而,目前,它还提供.NET、Java、PHP、Ruby 和 Node.js SDK 作为其 Cloud API 的文档解析家族成员。
该 API 还支持文本和元数据提取,以及从各种文档(如文字处理文档、电子表格、演示文稿、电子邮件、档案、标记和 PDF 文档)中提取图像。
为实现目标,首先从 仪表板 获取您的 APP KEY 和 APP SID,然后再开始执行以下步骤和可用的代码示例。
使用 Python 从 PDF 中提取图像
举个例子,首先我将从 PDF 文档中提取图像。只需按照简单的步骤,即可轻松提取所有图像。
- 将PDF文档上传到云端。
- 从上传的文档中提取图像。
- 下载提取的图像。
上传PDF文档
首先,使用以下任意一种方式将PDF文档上传到云端:
结果,PDF文件将上传到云存储
从上传的 PDF 文档中提取图像
现在您已经完成了从 pdf 中提取所有照片的困难部分。以下Python代码将让您快速从上传的PDF文档中提取所有图像。
# 如何使用 Python 从 Word 文档、Excel 电子表格、演示文稿或 PDF 文档中提取图像。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# 从 https://dashboard.groupdocs.cloud/ 获取 APP SID 和 APP Key
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# 显示提取图像的属性
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
下载提取的图像
提取图像后,您可以通过仪表板或以编程方式从云下载图像。此处显示的图像是从上面显示的 PDF 文档中提取的。
使用 Python 从 Excel、PPT 或 Word 文档中提取图像
同样,您可以使用上述 PDF 文档的 Python 代码从 Word 文档、电子表格、演示文稿中提取所有图像。您只需使用正确的文档名称和扩展名更改文件路径即可。
# 从 Word 文档、Excel 电子表格、Python 演示文稿中提取图像。
options.file_info.file_path = "documents/doc-with-images.docx"
# 只需根据要求更改文档路径(doc/docx、xls/xlsx、ppt/pptx,...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
在线从文档中提取图像
如何免费在线从文件或文档中提取图像? Groupdocs.Parser 提供了一个免费在线工具,用于从 word online 中提取图像、从 pdf 中提取所有图像、将所有图片保存在 powerpoint 中或从 xlsx python 中提取图像。只需选择您想要提取 jpg、png、jpeg 或 gif 图像的文档。
在线免费从 pdf 中提取图像、在线从 excel 中提取图像、从 word 在线中提取图像 和 从 pptx 在线中提取图像 工具是使用Groupdocs.Parser Python API。
结论
在本文中,我们学习了如何使用 Python 以编程方式从 Word、Excel、PowerPoint, PDF 和其他文档中提取图像。代码没有什么区别,我们只需更改源文档路径和类型即可。
要了解更多功能以及有关文档解析 API 的更多信息,请访问 文档 以获取也包含示例的文章。测试突出显示功能的最佳方法是体验 GitHub 中的开源运行示例。如有任何疑问,GroupDocs 支持团队 很乐意为您提供帮助。谢谢
问一个问题
如果您对如何使用Python从PDF、XLSX、PPTX或Word DOCX中提取图像有任何疑问,请随时在免费支持论坛向我们提问)