使用 Python 從 PDF 中提取文本

您可能需要在 Python 應用程序中讀取和提取 PDF 文檔中的文本。因此,作為 Python 開發人員,您可以輕鬆地以編程方式從雲中的 PDF 文檔中提取所有文本。本文將解釋如何在 Python 中使用 REST API 從 PDF 文檔中提取文本。

本文應涵蓋以下主題:

文檔解析器 REST API 和 Python SDK

為了從 PDF 文檔中提取文本,我將使用 GroupDocs.Parser Cloud 的 Python SDK API。它允許 python 從 pdf 中獲取文本並解析來自所有流行文檔類型的數據。您可以使用 SDK 通過模板提取文本、圖像和解析數據。它還為雲 API 提供 .NET、Java、PHP、Ruby 和 Node.js SDK 作為其文檔解析器家族成員

您可以使用 pip(python 包安裝程序)在控制台中使用以下命令將 GroupDocs.Parser Cloud 安裝到您的 Python 項目:

pip install groupdocs_parser_cloud

在開始執行步驟和可用代碼示例之前,請從 dashboard 獲取您的 Client ID 和 Client Secret。獲得客戶端 ID 和密碼後,添加如下所示的代碼:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

在 Python 中使用 REST API 從 PDF 中提取文本

您可以按照下面提到的簡單步驟從 PDF 文檔中提取文本:

上傳文件

首先,使用下面給出的代碼示例上傳 PDF 文檔以從 pdf python 獲取文本:

# 接口初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

因此,上傳的 PDF 文件 (sample.pdf) 將在雲端儀表板的 文件部分 中可用。現在您已準備好從 pdf 中提取內容。

使用 Python 從 PDF 文檔中提取文本

您可以按照下面提到的步驟以編程方式使用 python 輕鬆地從 pdf 中提取文本。

  • 創建 ParseApi 的實例
  • 定義文本選項
  • 設置 PDF 文件的路徑
  • 創建文本請求
  • 調用ParseApi.text()方法獲取結果

以下代碼示例展示瞭如何使用 REST API 從 PDF 文檔中提取所有文本。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
從整個文檔中提取文本

從整個文檔中提取文本

使用 Python 從 PDF 文檔中按頁碼讀取文本

您可以按照下面提到的步驟以編程方式輕鬆地從 PDF 文件的特定頁面中提取文本。

  • 創建 ParseApi 的實例
  • 定義文本選項
  • 提供 PDF 文件的路徑
  • 設置起始頁碼
  • 設置要提取的頁數
  • 創建文本請求
  • 調用ParseApi.text()方法獲取結果

以下代碼示例顯示瞭如何使用 REST API 按頁碼範圍在 Python 中從 pdf 中提取單詞。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
按頁碼範圍從 pdf 文件中提取文本

按頁碼範圍提取文本

使用 Python 從 PDF 附件中獲取文本

您可以按照下面提到的步驟從容器內的文檔中提取文本,以編程方式作為 PDF 文件中的附件提供。

  • 創建 ParseApi 的實例
  • 定義文本選項
  • 設置 PDF 文件的路徑
  • 定義 ContainerItemInfo
  • 提供裡面文件的相對路徑
  • 設置起始頁碼
  • 設置要提取的頁數
  • 創建文本請求
  • 調用ParseApi.text()方法獲取結果

以下代碼示例顯示瞭如何使用 REST API 從 PDF 文檔中的文檔中提取文本。

# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
從容器內的文檔中提取文本

從容器內的文檔中提取文本

在線試用

如何免費在線從pdf中提取文本?請嘗試使用以下免費在線 PDF 解析工具從 pdf 中免費提取文本。此 pdf 文本提取器是使用上述 API 開發的。 https://products.groupdocs.app/parser/pdf

結論

在本文中,您學習瞭如何從雲端的 PDF 文檔中提取文本。本文還介紹瞭如何以編程方式將 PDF 文件上傳到雲端和在線 pdf 文本提取器。此外,我們還學習了通過頁碼僅從 pdf 中提取文本以及從附加文檔中從 pdf 中提取 python 文本。

您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。如果對 pdf 文本提取和從 pdf python 提取文本有任何歧義,請隨時在論壇上與我們聯繫。

也可以看看