Python 從 PDF 文檔中提取文本

PDF(便攜式文檔格式)是用於呈現和交換文檔的最重要和最廣泛使用的文件格式之一。作為一名 Python 開發人員,在很多情況下您都希望從 PDF 文檔中提取文本並使用 Python 以不同的格式導出以進行文本分析。在這篇文章中,我們將向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 從 PDF 文檔中準確提取文本。

GroupDocs.Conversion Cloud是一個獨立於平台的文檔和圖像轉換REST API解決方案,不依賴於任何第三方應用程序。它將 50 多種類型的文檔從一種格式轉換為另一種格式。它為包括 Python 在內的所有流行編程語言提供 SDK,因此開發人員可以直接在其應用程序中使用 API,而無需擔心底層 REST API 調用。

讓我們開始編寫代碼:

安裝GroupDocs.Conversion雲包

首先,使用以下命令從 pypi 安裝 groupdocs-conversion-cloud 軟件包。

>pip 安裝 groupdocs-conversion-cloud

Python PDF 文本提取示例

我們將按照以下步驟從 PDF 文檔中提取文本:

  • 免費註冊 groupdocs.cloud to get your AppSID and AppKey
  • 創建一個 python 模塊並將以下代碼複製粘貼到其中。我們使用默認選項來提取 PDF 文檔的文本。您還可以使用文本格式的轉換選項提取特定頁面的文本。
# 導入模塊
import groupdocs_conversion_cloud

# 在 https://dashboard.groupdocs.cloud 獲取您的 app_sid 和 app_key(需要免費註冊)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 創建 API 實例
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • 在您最喜歡的 IDE 中運行代碼,您將得到以下輸出,僅此而已。任務完成!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

請隨時在 支持論壇 上給我們留言,分享您對 GroupDocs.Conversion Cloud API 的想法。或者,如果您有任何建議或者您需要我們的 REST API 具有的任何特定功能,請告訴我們。