中文

用于解析文档和提取数据的 REST API 解决方案

GroupDocs 即将退出以共享 GroupDocs.Parser Cloud 的第一个版本。它是一个开箱即用的独立于平台的 REST API 解决方案,可从所有常见业务文件格式中解析和提取数据,而无需依赖任何第三方工具或插件。开发人员可以将其与他们的 Web、桌面、移动或云应用程序集成,而无需任何主要的学习曲线,因为它可以在支持 REST 的任何平台或语言上使用。 什么是 GroupDocs.Parser Cloud? 假设您正在开发一个文档管理系统,需要一个文本搜索或文本分析功能,如果您的系统无需安装相关文档阅读器就可以读取或分析多种文档类型,岂不是很棒? GroupDocs.Parser Cloud完成了上述目的。它是一个文档数据提取 REST API,支持 50 多种文档类型。 GroupDocs.Parser Cloud 最有价值的功能之一是使用预定义模板解析文档。可以轻松定义模板并从业务文档(例如发票、收据、报价单、信件等)中提取数据。它不仅限于文本提取,还可以从支持的文档类型中提取图像。该 API 不仅可用于常规文档,还可用于 ZIP 档案、OST/PST 邮件数据文件和 PDF 组合等容器。抽出一些时间并访问 首次公开发布的发行说明 以获取其功能的完整列表。 怎么运行的? 您可以通过两种方式在应用程序中使用 GroupDocs.Parser Cloud 功能。您可以通过某些 REST 客户端使用它,也可以直接以您最喜欢的编程语言使用我们的 SDK。您可以找到来自 GroupDocs.Parser Github 存储库的 SDK 的完整列表。 在这里,我将通过使用预定义模板解析 Word 文档来演示 GroupDocs.Parser Cloud 的功能。我正在使用 REST 客户端; cURL 命令行工具。 首先,在继续之前,请注册 groupdocs.cloud 并获取应用程序 SID 和应用程序密钥来验证您的其余 API 调用。 创建模板 正如上面分享的,GroupDocs.Parser Cloud 允许用户使用预定义模板解析文档,以从文档中提取数据。我们将为以下Word文档创建一个模板并保存到默认存储。 在这里,我们按照以下步骤创建一个简单的模板: 卷曲示例:
· 蒂拉尔·艾哈迈德 · 2 分钟

文档解析器 REST API 解决方案简介 - GroupDocs.Parser Cloud

我们很高兴与大家分享即将推出的 GroupDocs.Parser Cloud API 的见解,这是 groupdocs.cloud 产品列表中的新成员。 GroupDocs.Parser Cloud 是一个文档解析解决方案。作为开发人员,您将能够在任何平台上的应用程序中添加文档解析功能,而无需依赖任何第三方插件或工具。该 REST API 的主要功能是解析用户定义模板上的文档,以从发票、报价单或其他类型的业务文档中提取数据。 即将推出的 API 支持的一些功能如下。 REST API 将不限于以下功能,但我们将不断添加新的有用功能。 特征 按模板解析文档 提取文本 仅提取文本 使用提取模式选项提取格式化文本;纯文本、HTML 和 降价 通过设置页面范围从特定页面提取文本 提取图像 文档信息提取 模板管理 支持的格式 在 GroupDocs.Parser Cloud API 的第一个版本中,我们将支持以下文件格式: 文档 微软Word文档 点 微软Word文档模板 DOCX Office 打开 XML 文档 DOCM Office Open XML 启用宏的文档 DOTX Office Open XML 文档模板 DOTM Office Open XML 文档启用宏的模板 TXT 纯文本 ODT 打开文档文本 OTT 打开文档文本模板 RTF 富文本格式 PDF
· 蒂拉尔·艾哈迈德 · 2 分钟

用于合并和拆分文档的 REST API 解决方案 - GroupDocs.Merger Cloud

为了确保 GroupDocs REST API 作为文档操作 API 的领导者,我们正在努力为您的日常使用案例引入新功能和 API。正如我们之前宣布的,我们正在 GroupDocs REST API 集合中添加新的 REST API。我们很高兴发布 GroupDocs.Merger Cloud 的第一个版本。它是一个通用的 REST API 解决方案,可以在任何平台上合并和拆分各种文档格式,而无需安装任何插件或软件。 什么是 GroupDocs.Merger Cloud? 在处理文档时,有时常见的要求是将文档合并到单个文件中。当信息量不大时,可以直接复制粘贴内容。但如果情况并非如此呢?您需要一些能够可靠、准确地合并文档的自动化解决方案。 GroupDocs.Merger Cloud 是一个 REST API,它不仅允许您连接多个文档,还可以跨多种支持的文档类型操作单个文档结构。作为开发人员,您可以在您的应用程序中使用它来实现文档合并解决方案。它支持所有常见文件格式。支持的文件类型包括 PDF、Microsoft Word 文档、Excel 电子表格、PowerPoint 演示文稿、纯文本和格式化文本以及一长串支持的文档格式。 以下是 GroupDocs.Merger Cloud 第一个版本支持的功能的完整列表: 文件操作 加入文件 分割文档 文档预览 文档页面操作 移动页面 删除页面 旋转页面 交换页 提取页面 更改页面方向 文件安全操作 文档信息提取 安全与认证 GroupDocs.Merger Cloud REST API 是安全的,需要使用应用程序访问密钥 ID (App SID) 和应用程序密钥 (App Key) 以及 JSONweb 令牌身份验证 进行身份验证。通过 groupdocs.cloud 注册 获取您的 AppSID 和应用密钥。
· 蒂拉尔·艾哈迈德 · 2 分钟

使用 Python SDK 将 PDF 转换为可编辑的 Word 文档

作为 Python 开发人员,您的用户可能会要求在您的应用程序中提供 PDF 到 Word 文档转换功能。因为如果没有 Adobe Acrobat,编辑 PDF 文档是非常困难的。用户有编辑PDF文档中的文本、表格、图像等内容的需求。解决方案是将PDF文档转换为可编辑的Word文档。但是,您知道这在编程上并不是那么简单。幸运的是,有一个模块; GroupDocs.Conversion Cloud SDK for Python让您只需几行Python代码即可轻松将PDF转换为可编辑的Word文档。 PDF 到 Word - 转换 API 和 Python SDK GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换解决方案,不依赖于任何工具或软件。它可以快速可靠地转换任何支持的文件格式的图像和文档。它为所有流行的编程语言提供了 SDK,以及源代码和工作示例。这使得开发人员能够直接在其应用程序中使用 GroupDocs.Conversion Cloud,而无需担心底层 REST API 调用。在本文中,我使用 Python SDK 进行 PDF 到 Word 的转换。 如何在 Python 中将 PDF 转换为可编辑的 DOCX 我将使用 Python 3.7.4,您可以使用任何您喜欢的版本 Python 2.7、3.4 或更高版本。在开始编码之前,注册 groupdocs.cloud 获取您的 APP SID 和 APP Key。 使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。 \> pip install groupdocs-conversion-cloud 将源 PDF 文档存储在保存脚本文件的文件夹中。
· 蒂拉尔·艾哈迈德 · 2 分钟

GroupDocs.Merger Cloud 即将推出!

您是否正在开发文档管理应用程序并正在寻找 API 来合并应用程序中的文档?您对该选项的搜索应该结束了。 GroupDocs将发布一个新的云API GroupDocs.Merger Cloud,它将使开发人员能够在任何平台上高精度、高保真地合并多个相同格式的文档,并且无需依赖任何第三方插件或应用程序。新 API 将提供的一些值得注意的功能包括合并文档、拆分文档、移动文档页面、旋转文档页面、提取文档页面等等。 我们将在下面分享即将推出的 GroupDocs.Merger Cloud API。它不会仅限于以下功能,但我们将不断在 API 中添加新的有用功能和对新文件格式的支持。 特征 文件操作 加入文件 拆分文档 文档预览 文档页面操作 移动页面 删除页面 旋转页面 交换页面 提取页面 更改页面方向 文档安全操作 文档信息提取 支持的格式 GroupDocs.Merger Cloud REST API 支持以下文件格式: 格式 描述 文档 微软Word文档 DOCX Microsoft Word 打开 XML 文档 DOCM Word Open XML 启用宏的文档 点 Word文档模板 DOTX Word 打开 XML 文档模板 DOTM Word Open XML 启用宏的文档模板 RTF 富文本格式文件 TXT 纯文本文件 ODT OpenDocument 文本文档 OTT
· 蒂拉尔·艾哈迈德 · 1 分钟

使用 Cloud Java SDK 将文档渲染为 HTML5

您正在使用 Java 开发文档查看器应用程序吗?您想拥有一个查看所有常见文件格式的单一解决方案吗?有个好消息给您,您可以使用 GroupDocs.Viewer Cloud SDK for Java 将 MS Office、PDF 和许多其他文件格式渲染为 HTML5。这样,不同类型的文档就可以在您的应用程序中轻松显示,无需安装任何其他软件(例如 MS Office、Apache Open Office、Adobe Acrobat Reader 等)。 GroupDocs.Viewer Cloud是一个独立于平台的文档渲染和查看解决方案。它允许您在应用程序中显示 80 多种行业标准文档类型。 GroupDocs.Viewer Cloud 的主要目的是能够快速、高质量地将文档呈现为 HTML、图像或 PDF 表示形式。在这篇文章中,我将重点关注 HTML5 输出。 现在,我将向您展示如何轻松地将输入文档呈现为 HTML5,只需几行代码。如前所述,我将在本文中使用适用于 Java 的 GroupDocs.Viewer Cloud SDK。但是,如果您使用其他编程语言,则可以从我们的 GitHub 存储库中检查您选择的 SDK。它包含适用于所有流行编程语言的 SDK。它使开发人员能够直接在其应用程序中使用 GroupDocs.Viewer Cloud,而无需担心底层 REST API 调用。 开始了! 步骤1: 在开始编码之前,请注册 groupdocs.cloud 以获取您的 APP SID 和 APP Key。 第2步: GroupDocs Cloud 在 Maven 存储库 上托管其所有 Java SDK。创建一个新的 Maven 项目并在 Maven pom.
· 蒂拉尔·艾哈迈德 · 1 分钟

使用 GroupDocs.Conversion Cloud 使用 Python 从 PDF 文档中提取文本

PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员,在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中,我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。 GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案,不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK,因此开发人员可以直接在其应用程序中使用 API,而无需担心底层 REST API 调用。 让我们开始编写代码: 安装GroupDocs.Conversion云包 首先,使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。 >pip 安装 groupdocs-conversion-cloud Python PDF 文本提取示例 我们将按照以下步骤从 PDF 文档中提取文本: 免费注册 groupdocs.cloud to get your AppSID and AppKey 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。 # 导入模块 import groupdocs_conversion_cloud # 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。 app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx" app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 创建 API 实例 convert_api = groupdocs_conversion_cloud.
· 蒂拉尔·艾哈迈德 · 1 分钟

用于优化 PDF 文档的可靠 RESTful API 解决方案

GroupDocs.Conversion Cloud 是一个文档和图像转换解决方案。它使开发人员能够在任何平台上的应用程序中添加文档转换功能,并使用标准 REST API 调用进行完全控制。在这篇文章中,我们将讨论如何优化 PDF 文档。您可以访问 GroupDocs.Convesion Cloud 以获取完整的功能列表。 PDF 文档有时可能包含附加数据。减小 PDF 文件的大小将帮助您优化网络传输和存储。这对于在网页上发布、在社交网络上共享、通过电子邮件发送或在存储中存档特别方便。让我向您展示如何轻松地使用 GroupDocs.Conversion Cloud 来优化 Web PDF 文档或优化 PDF 文件大小。我将在以下示例中使用 cURL。您可以使用您最喜欢的编程语言的 SDK,而无需担心底层 REST API 调用。 针对 Web 优化 PDF 文档 Web 优化或线性化是指使 PDF 文件适合使用 Web 浏览器在线浏览的过程。线性化 PDF 文件通过 Internet 加载速度更快。因为,线性化 PDF 文件包含允许字节流服务器一次一页下载 PDF 文件的信息。如果服务器上禁用了字节流或者 PDF 文件未线性化,则必须下载整个 PDF 文件才能查看。检查 cURL API 命令以优化 PDF 文件以进行 Web 显示: 优化 Web PDF // 针对 Web 优化 PDF 文档 curl -X POST "https://api.
· 蒂拉尔·艾哈迈德 · 1 分钟

使用 cURL 对 MS Office、PDF 和许多其他文档中的原始文本进行分类

什么是文本分类? 文本分类是根据文本内容为其分配标签或类别的过程,具有广泛的应用,例如情感分析、主题标记、垃圾邮件检测和意图检测。 GroupDocs.分类云 原始文本形式的非结构化数据无处不在:电子邮件、聊天、网页、社交媒体、支持票、调查回复等等。文本可以是极其丰富的信息源,但由于其非结构化性质,从中提取见解可能非常困难且耗时。企业正在转向文本分类,以快速且经济高效的方式构建文本,以增强决策和自动化流程。 什么是分类法? 分类学是分类的实践和科学。该词也用作分类方案。分类法是一种特殊的分类。从更广泛、更一般的意义上来说,它可以指事物或概念的分类,以及这种分类背后的原则。 GroupDocs.分类云API GroupDocs.Classification Cloud API 检索 IAB-2 分类法 或 文档分类法 的原始文本分类输出。它返回一个对象,其中包含有关最佳类别及其概率以及其他类别的概率的信息。 IAB-2 分类示例 GroupDocs.Classification Cloud API 支持 IAB-2 分类方案,下面列出了一些分类示例: “汽车”, ‘书籍\和\文学’, “商业\和\金融”, “职业生涯”, ‘教育’, ‘活动\和\景点’, ‘家庭\和\关系’, ‘美术\艺术’, ‘食物和饮料’, ‘健康生活’, ‘兴趣爱好’, ‘家&\花园’, ‘医疗\健康’, ‘电影’, ‘音乐\和\音频’, ‘新闻\和\政治’, ‘个人财务’ ETC。 卷曲请求 ### Upload document to default storage curl -X POST "https://api.groupdocs.cloud/v2.0/viewer/storage/file/viewerdocs%2Fthree-layouts.dwf?storageName=MyStorage" -H "accept: application/json" -H "authorization: Bearer [Access_Token]" -H "Content-Type: multipart/form-data" -T C:/Temp/three-layouts.dwf 回复 { "bestClassName": "Healthy_Living", "bestClassProbability": 53.
· 穆罕默德·里兹万 · 2 分钟

用于编辑 PDF 文本的 REST API 解决方案

GroupDocs.Annotation Cloud API 是一个独立于平台的文档和图像注释解决方案,使开发人员能够以最少的努力在其应用程序中添加注释功能。该 API 支持一系列注释类型,但在这篇文章中,我将重点关注文本密文注释,以演示如何密文 PDF 文本。 文本编辑是从文档中永久删除内容的过程。在发布文档之前,您需要从文档中删除敏感和私人数据。 GroupDocs.Annotation Cloud 提供文本编辑注释来编辑特定页面区域上的文本。文本密文用黑色矩形填充部分文本,以隐藏底层单词或短语。 让我快速概述一下如何使用 GroupDocs.Annotation Cloud 通过一组简单的 HTTP 请求来编辑文本。在此示例中,我将使用 cURL 来编辑 PDF 文档中的文本。该API不限于PDF文件格式,您可以查看支持的文件格式的完整列表。它还提供适用于所有流行编程语言的 SDK。您可以通过工作示例检查可用的来自 GitHub 存储库的 SDK,并直接在您的应用程序中使用。 我们将按照以下步骤查找重复图像: 生成用于身份验证的访问令牌 将源文档上传至存储 向文档添加注释 下载带注释的文档 生成访问令牌 ### Retrieve access token JWT(JSON Web Token) ### TODO: Get your AppSID and AppKey at https://dashboard.groupdocs.cloud (free registration is required). curl --request POST https://api.groupdocs.cloud/connect/token --header "Content-Type: application/x-www-form-urlencoded" --data "grant_type=client_credentials&client_id=[APP_SID]&client_secret=[APP_KEY]" 将源文档上传至存储 ### Upload document to default storage curl -X POST "https://api.
· 蒂拉尔·艾哈迈德 · 1 分钟