XML(可扩展标记语言)是一种用于存储和交换结构化信息的流行数据格式。它广泛应用于各个领域,包括 Web 开发、数据存储和数据传输。出于多种原因,从 XML 文件中提取文本至关重要。它允许我们访问和操作 XML 文档中包含的实际数据。通过提取文本,我们可以进行数据分析、数据转换、数据集成等各种操作。在本文中,我们将探讨如何使用 REST API 在 Python 中从 XML 中提取文本。
本文将涵盖以下主题:
用于解析 XML 文档的 Python REST API 和 SDK 安装
GroupDocs.Parser Cloud SDK for Python 是一个强大的工具,可以简化从 XML 和其他文件格式中提取文本的过程。它提供了广泛的功能,包括文档解析、文本提取、元数据提取等等。凭借其直观的 API,开发人员可以轻松地将文本提取功能集成到他们的 Python 应用程序中。它还支持 C# .NET、Java、PHP、Ruby 和 Node.js SDK 作为其云 API 的文档解析器家族成员。 SDK 可以集成到基于 Python 的应用程序中,以简化您的开发过程并提高生产力。
使用 pip(Python 的软件包安装程序)将 GroupDocs.Parser Cloud 安装到您的 Python 项目,在控制台中使用以下命令从 XML 中提取信息:
pip install groupdocs_parser_cloud
现在,请从 仪表板 获取您的客户端 ID 和客户端密钥,并添加如下所示的代码:
# 导入groupdocs解析器SDK
import groupdocs_parser_cloud
# 免费注册后从 https://dashboard.groupdocs.cloud 获取 app_sid 和 app_key。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# 获取文件 API 配置。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
使用 REST API 从 Python 中的 XML 文件中提取所有文本
要使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 Python 中的 XML 文档中提取文本,请执行以下步骤:
上传文件
首先,使用下面给出的代码示例将XML文档上传到云端:
# 创建文件 API 的实例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# 调用上传文件请求
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# 将文件上传至云端
response = file_api.upload_file(request)
print(response.uploaded)
因此,上传的 XML 文件将在云上仪表板的 文件部分 中提供。
使用 Python 从 XML 数据中提取所有文本
在本节中,我们将编写步骤和示例代码片段,演示如何使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 Python 中的 XML 文档中提取文本:
- 首先,创建 ParseApi 类的实例。
- 其次,创建 TextOptions() 类的实例。
- 第三,创建 FileInfo 类的实例。
- 并且,将其分配给文本选项 fileInfo 方法。
- 接下来,将 XML 文件的路径设置为输入。
- 现在,创建 TextRequest() 类的实例并传递 TextOptions 参数。
- 最后,通过调用 ParseApi.text() 方法并传递 TextRequest 参数来获取结果。
以下代码示例展示了如何使用 REST API 从 Python 中的 XML 文档中提取文本:
# 如何使用 REST API 从 Python 中的 XML 中提取文本
try:
# 接口初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
您可以在下图中看到输出:
免费在线文档解析器
如何在线免费提取XML文本?请尝试使用在线 XML 解析器软件从 XML 文件中提取数据。这个XML解析器工具是使用上述Python解析器库开发的。
结论
总之,从 XML 文件中提取文本是处理 XML 数据时的一项基本任务。 Python 与 GroupDocs.Parser Cloud SDK 相结合,为从 XML 文件中提取文本提供了可靠且高效的解决方案。以下是您从本文中了解到的内容:
- 如何使用 REST API 从 Python 中的 XML 文档中提取所有文本;
- 使用 Python 以编程方式将 XML 文件上传到云端;
- 以及在线 XML 数据提取软件来解析 XML 文档。
此外,您可以使用文档了解有关GroupDocs.Parser Cloud API的更多信息。我们还提供了 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。 Python SDK 的完整源代码可以在 Github 上免费获得。
最后,我们继续撰写有关不同文件格式的新博客文章并使用 REST API 进行解析。因此,请联系我们以获取最新更新。
问一个问题
如果您对 XML 文档解析器有任何疑问或困惑,请随时通过我们的论坛与我们联系。
常见问题解答
为什么我们需要从 XML 文件中提取文本?
从 XML 文件中提取文本使我们能够访问和操作 XML 文档中包含的实际数据。
如何使用 Python 从 XML 文件中提取文本?
您可以使用GroupDocs.Parser Cloud SDK for Python从XML文件中提取文本,它提供了强大的文本提取功能。
是否可以使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 XML 文件中提取元数据?
是的,GroupDocs.Parser Cloud SDK for Python支持从 XML 文件中提取元数据。您可以检索元数据信息,例如作者、创建日期、修改日期等。
我可以使用适用于 Python 的 GroupDocs.Parser Cloud SDK 提取 XML 文件中嵌入的图像吗?
是的,GroupDocs.Parser Cloud SDK for Python 允许您提取嵌入在 XML 文件中的图像并将其转换为不同的格式。
也可以看看
以下是一些可能对您有帮助的相关文章: