PDF(便攜式文檔格式)是用於呈現和交換文檔的最重要和最廣泛使用的文件格式之一。作為一名 Python 開發人員,在很多情況下您都希望從 PDF 文檔中提取文本並使用 Python 以不同的格式導出以進行文本分析。在這篇文章中,我們將向您展示如何使用 GroupDocs.Conversion Cloud SDK for Python 從 PDF 文檔中準確提取文本。
GroupDocs.Conversion Cloud是一個獨立於平台的文檔和圖像轉換REST API解決方案,不依賴於任何第三方應用程序。它將 50 多種類型的文檔從一種格式轉換為另一種格式。它為包括 Python 在內的所有流行編程語言提供 SDK,因此開發人員可以直接在其應用程序中使用 API,而無需擔心底層 REST API 調用。
讓我們開始編寫代碼:
安裝GroupDocs.Conversion雲包 首先,使用以下命令從 pypi 安裝 groupdocs-conversion-cloud 軟件包。
>pip 安裝 groupdocs-conversion-cloud
Python PDF 文本提取示例 我們將按照以下步驟從 PDF 文檔中提取文本:
免費註冊 groupdocs.cloud to get your AppSID and AppKey 創建一個 python 模塊並將以下代碼複製粘貼到其中。我們使用默認選項來提取 PDF 文檔的文本。您還可以使用文本格式的轉換選項提取特定頁面的文本。 # 導入模塊 import groupdocs_conversion_cloud # 在 https://dashboard.groupdocs.cloud 獲取您的 app_sid 和 app_key(需要免費註冊)。 app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx" app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" # 創建 API 實例 convert_api = groupdocs_conversion_cloud.