PDF 是当今最常用的文件格式之一,可提供跨平台支持。但是很难链接到 PDF 文档中的特定页面,而且 PDF 文件也不容易在社交网络上共享。您可以将 PDF 文档的外观保持为可以快速操作的 HTML 格式。在本文中,我们将学习如何在 Python 中将 PDF 文件转换为 HTML。
本文应涵盖以下主题:
- Python PDF to HTML Converter API – 安装
- 如何使用 REST API 在 Python 中在线将 PDF 转换为 HTML
- 在 Python 中将页面范围从 PDF 文件转换为 HTML 文件
- 在 Python 中将特定页面从 PDF 格式转换为 HTML 格式
Python PDF to HTML Converter API – 安装
为了将 PDF 文件转换为 HTML 网页,我们将使用 GroupDocs.Conversion Cloud 的 Python SDK API。它是一个功能丰富、独立于平台的文档和图像转换 Python 库。它提供了将任何支持的文件格式 的图像和文档快速转换为任何高质量格式的功能。
您可以在控制台中使用以下命令将 PDF 到 HTML 转换 Python 库安装并集成到您的 Python 应用程序中:
pip install groupdocs_conversion_cloud
在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,在 Python 应用程序中添加代码:
# 在 python 应用程序中加载用于 PDF 到 HTML 转换的 Python 库
import groupdocs_conversion_cloud
# 免费注册后,从 https://dashboard.groupdocs.cloud 获取 client_id 和 client_secret。
client_id = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
client_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# 获取不同的配置
configuration = groupdocs_conversion_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
your_storage = "groupdocs-storage-name"
现在,让我们演示如何在 Python 中使用 REST API 逐步将 pdf 格式转换为 html 格式。
如何使用 REST API 在 Python 中在线将 PDF 转换为 HTML
我们可以按照下面给出的简单步骤以编程方式将 pdf 文件转换为 html 格式:
- 首先,创建 ConvertApi 的实例
- 然后,使用 ConvertSettings 创建转换设置实例
- 接下来,提供文件存储名称
- 将输入 PDF 文件路径和输出格式设置为“html”
- 接下来,创建 PdfLoadOptions 的实例。
- 提供PDF文件密码
- 然后,设置 output\path 和 load\options
- 之后,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
- 最后,通过使用 ConvertDocumentRequest 调用 convert\document() 将 pdf 转换为 html
以下代码示例显示了如何在 Python 中将 pdf 格式更改为 html 格式:
# 如何使用 Python 在线将 PDF 转换为 HTML
try:
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# 定义转换设置
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
loadOptions = groupdocs_conversion_cloud.PdfLoadOptions()
loadOptions.password = "password"
settings.load_options = loadOptions
settings.output_path = "python-testing"
# 创建转换文档请求
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# 将 .pdf 文件转换为 HTML 网页
result = convert_api.convert_document(request)
print("pdf File converted to html successfully: " + result[0].path)
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling convert_document: {0}".format(e.message))
最后,上面的代码示例会将 HTML 文件保存在云端。这是将 pdf 转换为 html 文档的最佳方式。

如何在 Python 中将 PDF 文件转换为 HTML
在 Python 中将页面范围从 PDF 文件转换为 HTML 文件
我们可以按照以下步骤将 PDF 文档的页面范围转换为 HTML:
- 首先,创建 ConvertApi 的一个实例
- 然后,使用 ConvertSettings 创建转换设置实例
- 接下来,提供您的云存储名称
- 将输入 PDF 文件路径和输出格式设置为“html”
- 接下来,创建 HtmlConvertOptions 的实例
- 设置 from\page 和 pages\count 选项
- 然后,设置输出路径和convertOptions
- 现在,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
- 最后用ConvertDocumentRequest调用convert\document()方法在线将pdf转成html代码
以下代码示例显示了如何使用 Python 将一系列页面从 PDF 文档转换为 HTML 文件:
# 如何在 Python 中将页面范围从 PDF 转换为 HTML
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# 准备 html 转换设置
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
# PDF 转换选项:要转换的起始页码和总页数
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.from_page = 1
convertOptions.pages_count = 1
settings.convert_options = convertOptions
settings.output_path = "python-testing"
# 创建转换文档请求
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# 将 PDF 页面转换为 HTML 文件
result = convert_api.convert_document(request)
print("Converted range of pages from PDF to HTML web page: " + result[0].path)
最后,上面的代码示例将文档从pdf在线转换为html后保存在云端。
在 Python 中将特定页面从 PDF 格式转换为 HTML 格式
我们可以按照以下步骤使用带图像的最佳 pdf 到 html 在线转换器将 PDF 文档的特定页面转换为 HTML:
- 首先,创建 ConvertApi 的实例
- 然后,使用 ConvertSettings 创建转换设置实例
- 接下来,提供您的云存储名称
- 将输入 PDF 文件路径和输出格式设置为“html”
- 接下来,创建 HtmlConvertOptions 的实例
- 添加要转换为数组格式的页码
- 然后,设置输出路径和convertOptions
- 现在,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
- 最后用ConvertDocumentRequest调用convert\document()方法在线将pdf转成html代码
以下代码示例显示了如何使用 Python 将 PDF 文档的某些页面导出到 HTML 文件:
# 如何在Python中将PDF文件的特定页面转换为HTML网页格式
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)
# 定义转换设置
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"
# PDF 转换选项:要转换的页码
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.pages = [1, 3, 5]
settings.convert_options = convertOptions
settings.output_path = "python-testing"
# 创建转换文档请求
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
# 将 PDF 文件转换为 HTML 文件
result = convert_api.convert_document(request)
print("Successfully converted PDF file to HTML document: " + result[0].path)
最后,上面的代码示例将 pdf 转换为带有云端图像的 html。有一个在线 pdf 到 html 代码转换器,如下所述。
免费在线 PDF 到 HTML 转换器
什么是最好的 PDF 到 HTML 转换器? Groupdocs.Conversion 提供最好的免费在线 pdf 到 html 转换器,供您将 PDF 转换为 HTML 格式。它是使用 Groupdocs.Conversion 在线 pdf 到 html API 开发的。
结论
在本文中,您已了解:
- 如何在不丢失 Python 格式的情况下将 pdf 转换为 html;
- 如何使用 Python 按范围将 pdf 文件转换为 html 文件;
- 在 Python 中将特定的 PDF 页面转换为 HTML 格式;
- 免费在线 pdf 到 html 转换器;
此外,您可以使用 文档 了解有关 GroupDocs.Conversion 文件格式转换 API 的更多信息。
问一个问题
您可以通过我们的 免费支持论坛 询问有关如何将 pdf 文件转换为 html 格式的问题