作为 Python 开发人员,您的用户可能会要求在您的应用程序中提供 PDF 到 Word 文档转换功能。因为如果没有 Adobe Acrobat,编辑 PDF 文档是非常困难的。用户有编辑PDF文档中的文本、表格、图像等内容的需求。解决方案是将PDF文档转换为可编辑的Word文档。但是,您知道这在编程上并不是那么简单。幸运的是,有一个模块; GroupDocs.Conversion Cloud SDK for Python让您只需几行Python代码即可轻松将PDF转换为可编辑的Word文档。

PDF 到 Word - 转换 API 和 Python SDK

GroupDocs.Conversion 云版

GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换解决方案,不依赖于任何工具或软件。它可以快速可靠地转换任何支持的文件格式的图像和文档。它为所有流行的编程语言提供了 SDK,以及源代码和工作示例。这使得开发人员能够直接在其应用程序中使用 GroupDocs.Conversion Cloud,而无需担心底层 REST API 调用。在本文中,我使用 Python SDK 进行 PDF 到 Word 的转换。

如何在 Python 中将 PDF 转换为可编辑的 DOCX

我将使用 Python 3.7.4,您可以使用任何您喜欢的版本 Python 2.7、3.4 或更高版本。在开始编码之前,注册 groupdocs.cloud 获取您的 APP SID 和 APP Key。

使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。

\> pip install groupdocs-conversion-cloud

将源 PDF 文档存储在保存脚本文件的文件夹中。

用于转换的示例 Python 代码

使用您喜欢的编辑器并按照以下步骤将 PDF 转换为可在 Python 中编辑的 Word 文档。

  • 导入 GroupDocs.Conversion Cloud Python 包
# 导入模块
import groupdocs_conversion_cloud
  • 初始化API
# 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
  • 将源 PDF 文档上传到 GroupDocs 默认存储
try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.docx'
        strformat='docx'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
  • 将 PDF 文档转换为可编辑的 DOCX
        #Convert PDF to Word document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
        
        loadOptions = groupdocs_conversion_cloud.PdfLoadOptions()
        loadOptions.hide_pdf_annotations = True
        loadOptions.remove_embedded_files = False
        loadOptions.flatten_all_fields = True

        settings.load_options = loadOptions

        convertOptions = groupdocs_conversion_cloud.DocxConvertOptions()
        convertOptions.from_page = 1
        convertOptions.pages_count = 1
            
        settings.convert_options = convertOptions
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • 就是这样。 PDF 文档转换为 DOCX,API 响应包括生成文档的 URL。
Document converted successfully: [{'name': 'sample.docx',
 'path': 'sample.docx',
 'size': 4078202,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.docx'}]

有问题或建议吗?请随时在下面给我们留言或在支持论坛中提出问题。它帮助我们不断改进和完善我们的 API。

想要了解有关 GroupDocs.Conversion Cloud 的更多信息,请浏览 GroupDocs.Conversion Cloud 的以下有用资源。