使用 Python 从 PDF 中提取文本

您可能需要在 Python 应用程序中读取和提取 PDF 文档中的文本。因此,作为 Python 开发人员,您可以轻松地以编程方式从云端的 PDF 文档中提取所有文本。本文将解释如何在 Python 中使用 REST API 从 PDF 文档中提取文本。

本文应涵盖以下主题:

文档解析器 REST API 和 Python SDK

为了从 PDF 文档中提取文本,我将使用 GroupDocs.Parser Cloud 的 Python SDK API。它允许 python 从 pdf 中获取文本并解析来自所有流行文档类型的数据。您可以使用 SDK 通过模板提取文本、图像和解析数据。它还为云 API 提供 .NET、Java、PHP、Ruby 和 Node.js SDK 作为其文档解析器家族成员

您可以使用 pip(python 包安装程序)在控制台中使用以下命令将 GroupDocs.Parser Cloud 安装到您的 Python 项目:

pip install groupdocs_parser_cloud

在开始执行步骤和可用代码示例之前,请从 dashboard 获取您的 Client ID 和 Client Secret。获得客户端 ID 和密码后,添加如下所示的代码:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

在 Python 中使用 REST API 从 PDF 中提取文本

您可以按照下面提到的简单步骤从 PDF 文档中提取文本:

上传文件

首先,使用下面给出的代码示例上传 PDF 文档以从 pdf python 获取文本:

# 接口初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

因此,上传的 PDF 文件 (sample.pdf) 将在云端仪表板的 文件部分 中可用。现在您已准备好从 pdf 中提取内容。

使用 Python 从 PDF 文档中提取文本

您可以按照下面提到的步骤以编程方式使用 python 轻松地从 pdf 中提取文本。

  • 创建 ParseApi 的实例
  • 定义文本选项
  • 设置 PDF 文件的路径
  • 创建文本请求
  • 调用ParseApi.text()方法获取结果

以下代码示例展示了如何使用 REST API 从 PDF 文档中提取所有文本。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
从整个文档中提取文本

从整个文档中提取文本

使用 Python 从 PDF 文档中按页码读取文本

您可以按照下面提到的步骤以编程方式轻松地从 PDF 文件的特定页面中提取文本。

  • 创建 ParseApi 的实例
  • 定义文本选项
  • 提供 PDF 文件的路径
  • 设置起始页码
  • 设置要提取的页数
  • 创建文本请求
  • 调用ParseApi.text()方法获取结果

以下代码示例显示了如何使用 REST API 按页码范围在 Python 中从 pdf 中提取单词。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
按页码范围从 pdf 文件中提取文本

按页码范围提取文本

使用 Python 从 PDF 附件中获取文本

您可以按照下面提到的步骤从容器内的文档中提取文本,以编程方式作为 PDF 文件中的附件提供。

  • 创建 ParseApi 的实例
  • 定义文本选项
  • 设置 PDF 文件的路径
  • 定义 ContainerItemInfo
  • 提供里面文件的相对路径
  • 设置起始页码
  • 设置要提取的页数
  • 创建文本请求
  • 调用ParseApi.text()方法获取结果

以下代码示例显示了如何使用 REST API 从 PDF 文档中的文档中提取文本。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
从容器内的文档中提取文本

从容器内的文档中提取文本

在线试用

如何免费在线从pdf中提取文本?请尝试使用以下免费在线 PDF 解析工具从 pdf 中免费提取文本。此 pdf 文本提取器是使用上述 API 开发的。 https://products.groupdocs.app/parser/pdf

结论

在本文中,您学习了如何从云端的 PDF 文档中提取文本。本文还介绍了如何以编程方式将 PDF 文件上传到云端和在线 pdf 文本提取器。此外,我们还学习了通过页码仅从 pdf 中提取文本以及从附加文档中从 pdf 中提取 python 文本。

您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。如果对 pdf 文本提取和从 pdf python 提取文本有任何歧义,请随时在论坛上与我们联系。

也可以看看