Convert PDF to Plain Text

使用 GroupDocs.Conversion Cloud 使用 Python 从 PDF 文档中提取文本

PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员，在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中，我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。 GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案，不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK，因此开发人员可以直接在其应用程序中使用 API，而无需担心底层 REST API 调用。让我们开始编写代码：安装GroupDocs.Conversion云包首先，使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。 >pip 安装 groupdocs-conversion-cloud Python PDF 文本提取示例我们将按照以下步骤从 PDF 文档中提取文本：免费注册 groupdocs.cloud to get your AppSID and AppKey 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。 # 导入模块 import groupdocs_conversion_cloud # 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。 app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx" app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 创建 API 实例 convert_api = groupdocs_conversion_cloud.