Python 从 PDF 文档中提取文本

PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员,在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中,我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。

GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案,不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK,因此开发人员可以直接在其应用程序中使用 API,而无需担心底层 REST API 调用。

让我们开始编写代码:

安装GroupDocs.Conversion云包

首先,使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。

>pip 安装 groupdocs-conversion-cloud

Python PDF 文本提取示例

我们将按照以下步骤从 PDF 文档中提取文本:

  • 免费注册 groupdocs.cloud to get your AppSID and AppKey
  • 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。
# 导入模块
import groupdocs_conversion_cloud

# 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • 在您最喜欢的 IDE 中运行代码,您将得到以下输出,仅此而已。任务完成!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

请随时在 支持论坛 上给我们留言,分享您对 GroupDocs.Conversion Cloud API 的想法。或者,如果您有任何建议或者您需要我们的 REST API 具有的任何特定功能,请告诉我们。