使用 REST API 从 Python 中的 XML 中提取文本。

XML(可扩展标记语言)是一种用于存储和交换结构化信息的流行数据格式。它广泛应用于各个领域,包括 Web 开发、数据存储和数据传输。出于多种原因,从 XML 文件中提取文本至关重要。它允许我们访问和操作 XML 文档中包含的实际数据。通过提取文本,我们可以进行数据分析、数据转换、数据集成等各种操作。在本文中,我们将探讨如何使用 REST API 在 Python 中从 XML 中提取文本。

本文将涵盖以下主题:

用于解析 XML 文档的 Python REST API 和 SDK 安装

GroupDocs.Parser Cloud SDK for Python 是一个强大的工具,可以简化从 XML 和其他文件格式中提取文本的过程。它提供了广泛的功能,包括文档解析、文本提取、元数据提取等等。凭借其直观的 API,开发人员可以轻松地将文本提取功能集成到他们的 Python 应用程序中。它还支持 C# .NET、Java、PHP、Ruby 和 Node.js SDK 作为其云 API 的文档解析器家族成员SDK 可以集成到基于 Python 的应用程序中,以简化您的开发过程并提高生产力。

使用 pip(Python 的软件包安装程序)将 GroupDocs.Parser Cloud 安装到您的 Python 项目,在控制台中使用以下命令从 XML 中提取信息:

pip install groupdocs_parser_cloud

现在,请从 仪表板 获取您的客户端 ID 和客户端密钥,并添加如下所示的代码:

# 导入groupdocs解析器SDK
import groupdocs_parser_cloud

# 免费注册后从 https://dashboard.groupdocs.cloud 获取 app_sid 和 app_key。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 获取文件 API 配置。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

使用 REST API 从 Python 中的 XML 文件中提取所有文本

要使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 Python 中的 XML 文档中提取文本,请执行以下步骤:

  • 上传XML文件到云端
  • Extract 使用 Python 从 XML 中提取所有文本

上传文件

首先,使用下面给出的代码示例将XML文档上传到云端:

# 创建文件 API 的实例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# 调用上传文件请求
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# 将文件上传至云端
response = file_api.upload_file(request)
print(response.uploaded)

因此,上传的 XML 文件将在云上仪表板的 文件部分 中提供。

使用 Python 从 XML 数据中提取所有文本

在本节中,我们将编写步骤和示例代码片段,演示如何使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 Python 中的 XML 文档中提取文本:

  • 首先,创建 ParseApi 类的实例。
  • 其次,创建 TextOptions() 类的实例。
  • 第三,创建 FileInfo 类的实例。
  • 并且,将其分配给文本选项 fileInfo 方法。
  • 接下来,将 XML 文件的路径设置为输入。
  • 现在,创建 TextRequest() 类的实例并传递 TextOptions 参数。
  • 最后,通过调用 ParseApi.text() 方法并传递 TextRequest 参数来获取结果。

以下代码示例展示了如何使用 REST API 从 Python 中的 XML 文档中提取文本:

# 如何使用 REST API 从 Python 中的 XML 中提取文本
try:
  # 接口初始化
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # 定义文本选项
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

您可以在下图中看到输出:

Python 从 XML 文件中提取文本

使用 Python 从 XML 数据中提取所有文本。

免费在线文档解析器

如何在线免费提取XML文本?请尝试使用在线 XML 解析器软件从 XML 文件中提取数据。这个XML解析器工具是使用上述Python解析器库开发的。

结论

总之,从 XML 文件中提取文本是处理 XML 数据时的一项基本任务。 Python 与 GroupDocs.Parser Cloud SDK 相结合,为从 XML 文件中提取文本提供了可靠且高效的解决方案。以下是您从本文中了解到的内容:

  • 如何使用 REST API 从 Python 中的 XML 文档中提取所有文本;
  • 使用 Python 以编程方式将 XML 文件上传到云端;
  • 以及在线 XML 数据提取软件来解析 XML 文档。

此外,您可以使用文档了解有关GroupDocs.Parser Cloud API的更多信息。我们还提供了 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。 Python SDK 的完整源代码可以在 Github 上免费获得。

最后,我们继续撰写有关不同文件格式的新博客文章并使用 REST API 进行解析。因此,请联系我们以获取最新更新。

问一个问题

如果您对 XML 文档解析器有任何疑问或困惑,请随时通过我们的论坛与我们联系。

常见问题解答

为什么我们需要从 XML 文件中提取文本?

从 XML 文件中提取文本使我们能够访问和操作 XML 文档中包含的实际数据。

如何使用 Python 从 XML 文件中提取文本?

您可以使用GroupDocs.Parser Cloud SDK for Python从XML文件中提取文本,它提供了强大的文本提取功能。

是否可以使用适用于 Python 的 GroupDocs.Parser Cloud SDK 从 XML 文件中提取元数据?

是的,GroupDocs.Parser Cloud SDK for Python支持从 XML 文件中提取元数据。您可以检索元数据信息,例如作者、创建日期、修改日期等。

我可以使用适用于 Python 的 GroupDocs.Parser Cloud SDK 提取 XML 文件中嵌入的图像吗?

是的,GroupDocs.Parser Cloud SDK for Python 允许您提取嵌入在 XML 文件中的图像并将其转换为不同的格式。

也可以看看

以下是一些可能对您有帮助的相关文章: