
PDF(便携式文档格式)是用于呈现和交换文档的最重要和最广泛使用的文件格式之一。作为一名 Python 开发人员,在很多情况下您都希望从 PDF 文档中提取文本并使用 Python 以不同的格式导出以进行文本分析。在这篇文章中,我们将向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 从 PDF 文档中准确提取文本。
GroupDocs.Conversion Cloud是一个独立于平台的文档和图像转换REST API解决方案,不依赖于任何第三方应用程序。它将 50 多种类型的文档从一种格式转换为另一种格式。它为包括 Python 在内的所有流行编程语言提供 SDK,因此开发人员可以直接在其应用程序中使用 API,而无需担心底层 REST API 调用。
让我们开始编写代码:
安装GroupDocs.Conversion云包
首先,使用以下命令从 pypi 安装 groupdocs-conversion-cloud 软件包。
>pip 安装 groupdocs-conversion-cloud
Python PDF 文本提取示例
我们将按照以下步骤从 PDF 文档中提取文本:
- 免费注册 groupdocs.cloud to get your AppSID and AppKey
- 创建一个 python 模块并将以下代码复制粘贴到其中。我们使用默认选项来提取 PDF 文档的文本。您还可以使用文本格式的转换选项提取特定页面的文本。
# 导入模块
import groupdocs_conversion_cloud
# 在 https://dashboard.groupdocs.cloud 获取您的 app_sid 和 app_key(需要免费注册)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# 创建 API 实例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)
try:
#upload soruce file to storage
filename = '02_pages.pdf'
remote_name = '02_pages.pdf'
output_name= 'sample.txt'
strformat='txt'
request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
response_upload = file_api.upload_file(request_upload)
#Extract Text from PDF document
settings = groupdocs_conversion_cloud.ConvertSettings()
settings.file_path =remote_name
settings.format = strformat
settings.output_path = output_name
request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
response = convert_api.convert_document(request)
print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
- 在您最喜欢的 IDE 中运行代码,您将得到以下输出,仅此而已。任务完成!
Document converted successfully: [{'name': 'sample.txt',
'path': 'sample.txt',
'size': 791,
'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]
请随时在 支持论坛 上给我们留言,分享您对 GroupDocs.Conversion Cloud API 的想法。或者,如果您有任何建议或者您需要我们的 REST API 具有的任何特定功能,请告诉我们。