我们很高兴与大家分享即将推出的 GroupDocs.Parser Cloud API 的见解,这是 groupdocs.cloud 产品列表中的新成员。 GroupDocs.Parser Cloud 是一个文档解析解决方案。作为开发人员,您将能够在任何平台上的应用程序中添加文档解析功能,而无需依赖任何第三方插件或工具。该 REST API 的主要功能是解析用户定义模板上的文档,以从发票、报价单或其他类型的业务文档中提取数据。
即将推出的 API 支持的一些功能如下。 REST API 将不限于以下功能,但我们将不断添加新的有用功能。
特征
按模板解析文档
提取文本
仅提取文本
使用提取模式选项提取格式化文本;纯文本、HTML 和 降价
通过设置页面范围从特定页面提取文本
提取图像
文档信息提取
模板管理
支持的格式 在 GroupDocs.Parser Cloud API 的第一个版本中,我们将支持以下文件格式:
文档
微软Word文档
点
微软Word文档模板
DOCX
Office 打开 XML 文档
DOCM
Office Open XML 启用宏的文档
DOTX
Office Open XML 文档模板
DOTM
Office Open XML 文档启用宏的模板
TXT
纯文本
ODT
打开文档文本
OTT
打开文档文本模板
RTF
富文本格式
PDF
作为 Python 开发人员,您的用户可能会要求在您的应用程序中提供 PDF 到 Word 文档转换功能。因为如果没有 Adobe Acrobat,编辑 PDF 文档是非常困难的。用户有编辑PDF文档中的文本、表格、图像等内容的需求。解决方案是将PDF文档转换为可编辑的Word文档。但是,您知道这在编程上并不是那么简单。幸运的是,有一个模块; GroupDocs.Conversion Cloud SDK for Python让您只需几行Python代码即可轻松将PDF转换为可编辑的Word文档。
PDF 到 Word - 转换 API 和 Python SDK GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换解决方案,不依赖于任何工具或软件。它可以快速可靠地转换任何支持的文件格式的图像和文档。它为所有流行的编程语言提供了 SDK,以及源代码和工作示例。这使得开发人员能够直接在其应用程序中使用 GroupDocs.Conversion Cloud,而无需担心底层 REST API 调用。在本文中,我使用 Python SDK 进行 PDF 到 Word 的转换。
如何在 Python 中将 PDF 转换为可编辑的 DOCX 我将使用 Python 3.7.4,您可以使用任何您喜欢的版本 Python 2.7、3.4 或更高版本。在开始编码之前,注册 groupdocs.cloud 获取您的 APP SID 和 APP Key。
使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
\> pip install groupdocs-conversion-cloud 将源 PDF 文档存储在保存脚本文件的文件夹中。
GroupDocs.Merger Cloud 即将推出!
您是否正在开发文档管理应用程序并正在寻找 API 来合并应用程序中的文档?您对该选项的搜索应该结束了。 GroupDocs将发布一个新的云API GroupDocs.Merger Cloud,它将使开发人员能够在任何平台上高精度、高保真地合并多个相同格式的文档,并且无需依赖任何第三方插件或应用程序。新 API 将提供的一些值得注意的功能包括合并文档、拆分文档、移动文档页面、旋转文档页面、提取文档页面等等。
我们将在下面分享即将推出的 GroupDocs.Merger Cloud API。它不会仅限于以下功能,但我们将不断在 API 中添加新的有用功能和对新文件格式的支持。
特征 文件操作
加入文件
拆分文档
文档预览
文档页面操作
移动页面
删除页面
旋转页面
交换页面
提取页面
更改页面方向
文档安全操作
文档信息提取
支持的格式 GroupDocs.Merger Cloud REST API 支持以下文件格式:
格式
描述
文档
微软Word文档
DOCX
Microsoft Word 打开 XML 文档
DOCM
Word Open XML 启用宏的文档
点
Word文档模板
DOTX
Word 打开 XML 文档模板
DOTM
Word Open XML 启用宏的文档模板
RTF
富文本格式文件
TXT
纯文本文件
ODT
OpenDocument 文本文档
OTT
使用 GroupDocs.Conversion Cloud 使用 Python 从 PDF 文档中提取文本
PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员,在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中,我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。
GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案,不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK,因此开发人员可以直接在其应用程序中使用 API,而无需担心底层 REST API 调用。
让我们开始编写代码:
安装GroupDocs.Conversion云包 首先,使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
>pip 安装 groupdocs-conversion-cloud
Python PDF 文本提取示例 我们将按照以下步骤从 PDF 文档中提取文本:
免费注册 groupdocs.cloud to get your AppSID and AppKey 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。 # 导入模块 import groupdocs_conversion_cloud # 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。 app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx" app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 创建 API 实例 convert_api = groupdocs_conversion_cloud.
用于优化 PDF 文档的可靠 RESTful API 解决方案
GroupDocs.Conversion Cloud 是一个文档和图像转换解决方案。它使开发人员能够在任何平台上的应用程序中添加文档转换功能,并使用标准 REST API 调用进行完全控制。在这篇文章中,我们将讨论如何优化 PDF 文档。您可以访问 GroupDocs.Convesion Cloud 以获取完整的功能列表。
PDF 文档有时可能包含附加数据。减小 PDF 文件的大小将帮助您优化网络传输和存储。这对于在网页上发布、在社交网络上共享、通过电子邮件发送或在存储中存档特别方便。让我向您展示如何轻松地使用 GroupDocs.Conversion Cloud 来优化 Web PDF 文档或优化 PDF 文件大小。我将在以下示例中使用 cURL。您可以使用您最喜欢的编程语言的 SDK,而无需担心底层 REST API 调用。
针对 Web 优化 PDF 文档 Web 优化或线性化是指使 PDF 文件适合使用 Web 浏览器在线浏览的过程。线性化 PDF 文件通过 Internet 加载速度更快。因为,线性化 PDF 文件包含允许字节流服务器一次一页下载 PDF 文件的信息。如果服务器上禁用了字节流或者 PDF 文件未线性化,则必须下载整个 PDF 文件才能查看。检查 cURL API 命令以优化 PDF 文件以进行 Web 显示:
优化 Web PDF
// 针对 Web 优化 PDF 文档 curl -X POST "https://api.