PDF 是当今最常用的文件格式之一,可提供跨平台支持。但是很难链接到 PDF 文档中的特定页面,而且 PDF 文件也不容易在社交网络上共享。您可以将 PDF 文档的外观保持为可以快速操作的 HTML 格式。在本文中,我们将学习如何在 Python 中将 PDF 文件转换为 HTML。

本文应涵盖以下主题:

Python PDF to HTML Converter API – 安装

为了将 PDF 文件转换为 HTML 网页,我们将使用 GroupDocs.Conversion Cloud 的 Python SDK API。它是一个功能丰富、独立于平台的文档和图像转换 Python 库。它提供了将任何支持的文件格式 的图像和文档快速转换为任何高质量格式的功能。

您可以在控制台中使用以下命令将 PDF 到 HTML 转换 Python 库安装并集成到您的 Python 应用程序中:

pip install groupdocs_conversion_cloud

在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,在 Python 应用程序中添加代码:

# 在 python 应用程序中加载用于 PDF 到 HTML 转换的 Python 库
import groupdocs_conversion_cloud

# 免费注册后,从 https://dashboard.groupdocs.cloud 获取 client_id 和 client_secret。
client_id = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
client_secret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 获取不同的配置
configuration = groupdocs_conversion_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
your_storage = "groupdocs-storage-name"

现在,让我们演示如何在 Python 中使用 REST API 逐步将 pdf 格式转换为 html 格式。

如何使用 REST API 在 Python 中在线将 PDF 转换为 HTML

我们可以按照下面给出的简单步骤以编程方式将 pdf 文件转换为 html 格式:

  • 首先,创建 ConvertApi 的实例
  • 然后,使用 ConvertSettings 创建转换设置实例
  • 接下来,提供文件存储名称
  • 将输入 PDF 文件路径和输出格式设置为“html”
  • 接下来,创建 PdfLoadOptions 的实例。
  • 提供PDF文件密码
  • 然后,设置 output\path 和 load\options
  • 之后,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
  • 最后,通过使用 ConvertDocumentRequest 调用 convert\document() 将 pdf 转换为 html

以下代码示例显示了如何在 Python 中将 pdf 格式更改为 html 格式:

# 如何使用 Python 在线将 PDF 转换为 HTML
try:
  # 创建 API 实例
  convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)

  # 定义转换设置
  settings = groupdocs_conversion_cloud.ConvertSettings()
  settings.storage_name = your_storage
  settings.file_path = "python-testing/sample-pdf-file.pdf"
  settings.format = "html"

  loadOptions = groupdocs_conversion_cloud.PdfLoadOptions()
  loadOptions.password = "password"

  settings.load_options = loadOptions
  settings.output_path = "python-testing"

  # 创建转换文档请求
  request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)

  # 将 .pdf 文件转换为 HTML 网页
  result = convert_api.convert_document(request)
  print("pdf File converted to html successfully: " + result[0].path)

except groupdocs_conversion_cloud.ApiException as e:
  print("Exception when calling convert_document: {0}".format(e.message))

最后,上面的代码示例会将 HTML 文件保存在云端。这是将 pdf 转换为 html 文档的最佳方式。

如何在 Python 中将 PDF 文件转换为 HTML

如何在 Python 中将 PDF 文件转换为 HTML

在 Python 中将页面范围从 PDF 文件转换为 HTML 文件

我们可以按照以下步骤将 PDF 文档的页面范围转换为 HTML:

  • 首先,创建 ConvertApi 的一个实例
  • 然后,使用 ConvertSettings 创建转换设置实例
  • 接下来,提供您的云存储名称
  • 将输入 PDF 文件路径和输出格式设置为“html”
  • 接下来,创建 HtmlConvertOptions 的实例
  • 设置 from\page 和 pages\count 选项
  • 然后,设置输出路径和convertOptions
  • 现在,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
  • 最后用ConvertDocumentRequest调用convert\document()方法在线将pdf转成html代码

以下代码示例显示了如何使用 Python 将一系列页面从 PDF 文档转换为 HTML 文件:

# 如何在 Python 中将页面范围从 PDF 转换为 HTML
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)

# 准备 html 转换设置
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"

# PDF 转换选项:要转换的起始页码和总页数
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.from_page = 1 
convertOptions.pages_count = 1

settings.convert_options = convertOptions
settings.output_path = "python-testing"

# 创建转换文档请求
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)

# 将 PDF 页面转换为 HTML 文件
result = convert_api.convert_document(request)
print("Converted range of pages from PDF to HTML web page: " + result[0].path)

最后,上面的代码示例将文档从pdf在线转换为html后保存在云端。

在 Python 中将特定页面从 PDF 格式转换为 HTML 格式

我们可以按照以下步骤使用带图像的最佳 pdf 到 html 在线转换器将 PDF 文档的特定页面转换为 HTML:

  • 首先,创建 ConvertApi 的实例
  • 然后,使用 ConvertSettings 创建转换设置实例
  • 接下来,提供您的云存储名称
  • 将输入 PDF 文件路径和输出格式设置为“html”
  • 接下来,创建 HtmlConvertOptions 的实例
  • 添加要转换为数组格式的页码
  • 然后,设置输出路径和convertOptions
  • 现在,使用 ConvertSettings 作为参数创建 ConvertDocumentRequest
  • 最后用ConvertDocumentRequest调用convert\document()方法在线将pdf转成html代码

以下代码示例显示了如何使用 Python 将 PDF 文档的某些页面导出到 HTML 文件:

# 如何在Python中将PDF文件的特定页面转换为HTML网页格式
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(client_id, client_secret)

# 定义转换设置
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.storage_name = your_storage
settings.file_path = "python-testing/sample-pdf-file.pdf"
settings.format = "html"

# PDF 转换选项:要转换的页码
convertOptions = groupdocs_conversion_cloud.HtmlConvertOptions()
convertOptions.pages = [1, 3, 5]

settings.convert_options = convertOptions
settings.output_path = "python-testing"

# 创建转换文档请求
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)

# 将 PDF 文件转换为 HTML 文件
result = convert_api.convert_document(request)
print("Successfully converted PDF file to HTML document: " + result[0].path)

最后,上面的代码示例将 pdf 转换为带有云端图像的 html。有一个在线 pdf 到 html 代码转换器,如下所述。

免费在线 PDF 到 HTML 转换器

什么是最好的 PDF 到 HTML 转换器? Groupdocs.Conversion 提供最好的免费在线 pdf 到 html 转换器,供您将 PDF 转换为 HTML 格式。它是使用 Groupdocs.Conversion 在线 pdf 到 html API 开发的。

结论

在本文中,您已了解:

  • 如何在不丢失 Python 格式的情况下将 pdf 转换为 html;
  • 如何使用 Python 按范围将 pdf 文件转换为 html 文件;
  • 在 Python 中将特定的 PDF 页面转换为 HTML 格式;
  • 免费在线 pdf 到 html 转换器;

此外,您可以使用 文档 了解有关 GroupDocs.Conversion 文件格式转换 API 的更多信息。

问一个问题

您可以通过我们的 免费支持论坛 询问有关如何将 pdf 文件转换为 html 格式的问题

也可以看看