作为 Python 开发人员,您的用户可能会要求在您的应用程序中提供 PDF 到 Word 文档转换功能。因为如果没有 Adobe Acrobat,编辑 PDF 文档是非常困难的。用户有编辑PDF文档中的文本、表格、图像等内容的需求。解决方案是将PDF文档转换为可编辑的Word文档。但是,您知道这在编程上并不是那么简单。幸运的是,有一个模块; GroupDocs.Conversion Cloud SDK for Python让您只需几行Python代码即可轻松将PDF转换为可编辑的Word文档。
PDF 到 Word - 转换 API 和 Python SDK

GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换解决方案,不依赖于任何工具或软件。它可以快速可靠地转换任何支持的文件格式的图像和文档。它为所有流行的编程语言提供了 SDK,以及源代码和工作示例。这使得开发人员能够直接在其应用程序中使用 GroupDocs.Conversion Cloud,而无需担心底层 REST API 调用。在本文中,我使用 Python SDK 进行 PDF 到 Word 的转换。
如何在 Python 中将 PDF 转换为可编辑的 DOCX
我将使用 Python 3.7.4,您可以使用任何您喜欢的版本 Python 2.7、3.4 或更高版本。在开始编码之前,注册 groupdocs.cloud 获取您的 APP SID 和 APP Key。
使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
\> pip install groupdocs-conversion-cloud
将源 PDF 文档存储在保存脚本文件的文件夹中。
用于转换的示例 Python 代码
使用您喜欢的编辑器并按照以下步骤将 PDF 转换为可在 Python 中编辑的 Word 文档。
- 导入 GroupDocs.Conversion Cloud Python 包
# 导入模块
import groupdocs_conversion_cloud
- 初始化API
# 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
- 将源 PDF 文档上传到 GroupDocs 默认存储
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.docx'
strformat='docx'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
- 将 PDF 文档转换为可编辑的 DOCX
#Convert PDF to Word document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
loadOptions = groupdocs_conversion_cloud.PdfLoadOptions()
loadOptions.hide_pdf_annotations = True
loadOptions.remove_embedded_files = False
loadOptions.flatten_all_fields = True
settings.load_options = loadOptions
convertOptions = groupdocs_conversion_cloud.DocxConvertOptions()
convertOptions.from_page = 1
convertOptions.pages_count = 1
settings.convert_options = convertOptions
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- 就是这样。 PDF 文档转换为 DOCX,API 响应包括生成文档的 URL。
Document converted successfully: [{'name': 'sample.docx',
'path': 'sample.docx',
'size': 4078202,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.docx'}]
有问题或建议吗?请随时在下面给我们留言或在支持论坛中提出问题。它帮助我们不断改进和完善我们的 API。
想要了解有关 GroupDocs.Conversion Cloud 的更多信息,请浏览 GroupDocs.Conversion Cloud 的以下有用资源。
- Web API Explorer → API 的实时示例
- 开发者文档 → 在线文档
- 示例和 SDK → Github 上的代码示例
- 支持论坛 → 在线帮助