XML(可擴展標記語言)是一種用於存儲和交換結構化信息的流行數據格式。它廣泛應用於各個領域,包括 Web 開發、數據存儲和數據傳輸。出於多種原因,從 XML 文件中提取文本至關重要。它允許我們訪問和操作 XML 文檔中包含的實際數據。通過提取文本,我們可以進行數據分析、數據轉換、數據集成等各種操作。在本文中,我們將探討如何使用 REST API 在 Python 中從 XML 中提取文本。
本文將涵蓋以下主題:
用於解析 XML 文檔的 Python REST API 和 SDK 安裝
GroupDocs.Parser Cloud SDK for Python 是一個強大的工具,可以簡化從 XML 和其他文件格式中提取文本的過程。它提供了廣泛的功能,包括文檔解析、文本提取、元數據提取等等。憑藉其直觀的 API,開發人員可以輕鬆地將文本提取功能集成到他們的 Python 應用程序中。它還支持 C# .NET、Java、PHP、Ruby 和 Node.js SDK 作為其云 API 的文檔解析器家族成員。 SDK 可以集成到基於 Python 的應用程序中,以簡化您的開發過程並提高生產力。
使用 pip(Python 的軟件包安裝程序)將 GroupDocs.Parser Cloud 安裝到您的 Python 項目,在控制台中使用以下命令從 XML 中提取信息:
pip install groupdocs_parser_cloud
現在,請從 儀表板 獲取您的客戶端 ID 和客戶端密鑰,並添加如下所示的代碼:
# 導入groupdocs解析器SDK
import groupdocs_parser_cloud
# 免費註冊後從 https://dashboard.groupdocs.cloud 獲取 app_sid 和 app_key。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# 獲取文件 API 配置。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
使用 REST API 從 Python 中的 XML 文件中提取所有文本
要使用適用於 Python 的 GroupDocs.Parser Cloud SDK 從 Python 中的 XML 文檔中提取文本,請執行以下步驟:
上傳文件
首先,使用下面給出的代碼示例將XML文檔上傳到雲端:
# 創建文件 API 的實例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# 調用上傳文件請求
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# 將文件上傳至雲端
response = file_api.upload_file(request)
print(response.uploaded)
因此,上傳的 XML 文件將在雲上儀表板的 文件部分 中提供。
使用 Python 從 XML 數據中提取所有文本
在本節中,我們將編寫步驟和示例代碼片段,演示如何使用適用於 Python 的 GroupDocs.Parser Cloud SDK 從 Python 中的 XML 文檔中提取文本:
- 首先,創建 ParseApi 類的實例。
- 其次,創建 TextOptions() 類的實例。
- 第三,創建 FileInfo 類的實例。
- 並且,將其分配給文本選項 fileInfo 方法。
- 接下來,將 XML 文件的路徑設置為輸入。
- 現在,創建 TextRequest() 類的實例並傳遞 TextOptions 參數。
- 最後,通過調用 ParseApi.text() 方法並傳遞 TextRequest 參數來獲取結果。
以下代碼示例展示瞭如何使用 REST API 從 Python 中的 XML 文檔中提取文本:
# 如何使用 REST API 從 Python 中的 XML 中提取文本
try:
# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定義文本選項
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
您可以在下圖中看到輸出:
免費在線文檔解析器
如何在線免費提取XML文本?請嘗試使用在線 XML 解析器軟件從 XML 文件中提取數據。這個XML解析器工具是使用上述Python解析器庫開發的。
結論
總之,從 XML 文件中提取文本是處理 XML 數據時的一項基本任務。 Python 與 GroupDocs.Parser Cloud SDK 相結合,為從 XML 文件中提取文本提供了可靠且高效的解決方案。以下是您從本文中了解到的內容:
- 如何使用 REST API 從 Python 中的 XML 文檔中提取所有文本;
- 使用 Python 以編程方式將 XML 文件上傳到雲端;
- 以及在線 XML 數據提取軟件來解析 XML 文檔。
此外,您可以使用文檔了解有關GroupDocs.Parser Cloud API的更多信息。我們還提供了 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。 Python SDK 的完整源代碼可以在 Github 上免費獲得。
最後,我們繼續撰寫有關不同文件格式的新博客文章並使用 REST API 進行解析。因此,請聯繫我們以獲取最新更新。
問一個問題
如果您對 XML 文檔解析器有任何疑問或困惑,請隨時通過我們的論壇與我們聯繫。
常見問題解答
為什麼我們需要從 XML 文件中提取文本?
從 XML 文件中提取文本使我們能夠訪問和操作 XML 文檔中包含的實際數據。
如何使用 Python 從 XML 文件中提取文本?
您可以使用GroupDocs.Parser Cloud SDK for Python從XML文件中提取文本,它提供了強大的文本提取功能。
是否可以使用適用於 Python 的 GroupDocs.Parser Cloud SDK 從 XML 文件中提取元數據?
是的,GroupDocs.Parser Cloud SDK for Python支持從 XML 文件中提取元數據。您可以檢索元數據信息,例如作者、創建日期、修改日期等。
我可以使用適用於 Python 的 GroupDocs.Parser Cloud SDK 提取 XML 文件中嵌入的圖像嗎?
是的,GroupDocs.Parser Cloud SDK for Python 允許您提取嵌入在 XML 文件中的圖像並將其轉換為不同的格式。
也可以看看
以下是一些可能對您有幫助的相關文章: