作为 Python 开发人员,您的用户可能会要求在您的应用程序中提供 PDF 到 Word 文档转换功能。因为如果没有 Adobe Acrobat,编辑 PDF 文档是非常困难的。用户有编辑PDF文档中的文本、表格、图像等内容的需求。解决方案是将PDF文档转换为可编辑的Word文档。但是,您知道这在编程上并不是那么简单。幸运的是,有一个模块; GroupDocs.Conversion Cloud SDK for Python让您只需几行Python代码即可轻松将PDF转换为可编辑的Word文档。
PDF 到 Word - 转换 API 和 Python SDK GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换解决方案,不依赖于任何工具或软件。它可以快速可靠地转换任何支持的文件格式的图像和文档。它为所有流行的编程语言提供了 SDK,以及源代码和工作示例。这使得开发人员能够直接在其应用程序中使用 GroupDocs.Conversion Cloud,而无需担心底层 REST API 调用。在本文中,我使用 Python SDK 进行 PDF 到 Word 的转换。
如何在 Python 中将 PDF 转换为可编辑的 DOCX 我将使用 Python 3.7.4,您可以使用任何您喜欢的版本 Python 2.7、3.4 或更高版本。在开始编码之前,注册 groupdocs.cloud 获取您的 APP SID 和 APP Key。
使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
\> pip install groupdocs-conversion-cloud 将源 PDF 文档存储在保存脚本文件的文件夹中。
使用 GroupDocs.Conversion Cloud 使用 Python 从 PDF 文档中提取文本
PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员,在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中,我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。
GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案,不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK,因此开发人员可以直接在其应用程序中使用 API,而无需担心底层 REST API 调用。
让我们开始编写代码:
安装GroupDocs.Conversion云包 首先,使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
>pip 安装 groupdocs-conversion-cloud
Python PDF 文本提取示例 我们将按照以下步骤从 PDF 文档中提取文本:
免费注册 groupdocs.cloud to get your AppSID and AppKey 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。 # 导入模块 import groupdocs_conversion_cloud # 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。 app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx" app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 创建 API 实例 convert_api = groupdocs_conversion_cloud.
用于优化 PDF 文档的可靠 RESTful API 解决方案
GroupDocs.Conversion Cloud 是一个文档和图像转换解决方案。它使开发人员能够在任何平台上的应用程序中添加文档转换功能,并使用标准 REST API 调用进行完全控制。在这篇文章中,我们将讨论如何优化 PDF 文档。您可以访问 GroupDocs.Convesion Cloud 以获取完整的功能列表。
PDF 文档有时可能包含附加数据。减小 PDF 文件的大小将帮助您优化网络传输和存储。这对于在网页上发布、在社交网络上共享、通过电子邮件发送或在存储中存档特别方便。让我向您展示如何轻松地使用 GroupDocs.Conversion Cloud 来优化 Web PDF 文档或优化 PDF 文件大小。我将在以下示例中使用 cURL。您可以使用您最喜欢的编程语言的 SDK,而无需担心底层 REST API 调用。
针对 Web 优化 PDF 文档 Web 优化或线性化是指使 PDF 文件适合使用 Web 浏览器在线浏览的过程。线性化 PDF 文件通过 Internet 加载速度更快。因为,线性化 PDF 文件包含允许字节流服务器一次一页下载 PDF 文件的信息。如果服务器上禁用了字节流或者 PDF 文件未线性化,则必须下载整个 PDF 文件才能查看。检查 cURL API 命令以优化 PDF 文件以进行 Web 显示:
优化 Web PDF
// 针对 Web 优化 PDF 文档 curl -X POST "https://api.
GroupDocs.Conversion Cloud V2 简介
GroupDocs Cloud 很高兴发布 GroupDocs.Conversion Cloud REST API V2 版本。它是全新的 API 版本,与 V1 相比,具有简化且直观的方法。新的 API 通过改进的架构减少了文档转换任务的方法和选项。在此版本中,API 包括使用云存储的方法,这是重要的部分。 了解更多。
什么是新的 GroupDocs.Conversion Cloud V2 的 API 方法分为四个部分。转换 API 部分包括文档转换的方法。文件 API 部分具有上传、下载、复制、移动和删除文件的方法。文件夹 API 部分添加了在云存储中创建、复制、移动、删除文件夹的方法。 Storage API包括获取存储信息和文件信息的方法。
在接下来的几段中,我们将介绍 GroupDocs.Viewer Cloud V2 的特性和功能。
怎么运行的 在这个数字时代,文档转换服务正在成为组织的基本需求。业务流程中出于不同的目的需要使用不同的文档格式。因此,作为开发人员,您可能正在寻找一种高效可靠的解决方案来开发文档转换工具。 GroupDocs.Conversion Cloud REST API 支持 65 多种文档格式的转换。它允许将文档转换功能无缝集成到您的应用程序中。
我们将向您展示如何轻松快速地将文档转换为另一种文档格式并同时添加水印。在此示例中,我们使用 cURL 来处理 REST API 请求。请检查可用 SDK 的完整列表,以便直接在您喜欢的平台中使用 GroupDocs.Viewer Cloud API。
开始吧…我们将 DOCX 文件转换为 PDF 并添加水印文本,如下所示
获取验证码
GroupDocs.Conversion Cloud REST API 支持 JWT(JSON Web Token) 身份验证。
下一代 GroupDocs.Conversion Cloud 18.6 中引入的 PDF 资源优化和书签选项
我们很高兴地宣布 Next Generation GroupDocs.Conversion Cloud 18.6 每月发布。此版本引入了 PDF 转换功能的新选项以及“返回无效 URL”的重要错误修复。在此版本中,我们还更新了 PHP 和 .NET SDK,以便更好地了解 API 功能的使用。此API可以与您的应用程序集成以利用文档转换功能,请点击此处了解更多详情。
新功能 - GroupDocs.Conversion Cloud GroupDocs.Conversion Cloud API 18.6 版本包括从 Words、Cells 和 XPS 转换 PDF 文档的新选项,以控制资源优化、书签选项和灰度 PDF 创建等。GroupDocs.Conversion Cloud API 支持几乎所有主要文档和图像格式转换为和从。下面列出了当前版本中的一些主要更改。您可以访问我们的 GitHub 获取更新的 SDK 以了解完整的详细信息。
转换为 PDF 时创建线性化 PDF 的选项 从 Words 转换为 PDF 和 XPS 时指定书签级别、标题级别和扩展级别 用于控制单元格转换的选项 转换为 PDF 时的资源优化选项 转换为灰度 PDF 的选项 转换结果返回无效 URL - 修复 GroupDocs.Conversion Cloud API 资源 您可以访问以下 API 资源来开始使用该 API。