使用 REST API 在 Python 中从 XML 中提取文本。

XML(eXtensible Markup Language) 是一种流行的数据格式,用于存储和交换结构化信息。它在多个领域广泛使用,包括网页开发、数据存储和数据传输。从 XML 文件中提取文本对于许多原因至关重要。它使我们能够访问和操作 XML 文档中包含的实际数据。通过提取文本,我们可以执行各种操作,例如数据分析、数据转化和数据集成。在本文中,我们将探讨如何使用 REST API 在 Python 中从 XML 中提取文本。

本文将涵盖以下主题:

Python REST API to Parse XML Document and SDK Installation

GroupDocs.Parser Cloud SDK for Python 是一个强大的工具,可以简化从 XML 和其他文件格式中提取文本的过程。它提供了一系列功能,包括文档解析、文本提取、元数据提取等。凭借其直观的 API,开发人员可以轻松地将文本提取功能集成到他们的 Python 应用程序中。它还支持 C# .NET、Java、PHP、Ruby 和 Node.js SDK,作为其 document parser family members 的 Cloud API。该 SDK 可以集成到基于 Python 的应用程序中,以简化您的开发过程并提高生产力。

在控制台中使用以下命令通过 pip (package installer for Python) 将 GroupDocs.Parser Cloud 安装到您的 Python 项目中,以从 XML 中提取信息:

pip install groupdocs_parser_cloud

现在,请从 dashboard 获取您的 Client ID 和 Client Secret,并添加如下所示的代码:

# 导入 groupdocs parser SDK
import groupdocs_parser_cloud

# 从 https://dashboard.groupdocs.cloud 免费注册后获取 appsid 和 appkey。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 获取文件 API 配置。
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

提取 XML 文件中的所有文本,使用 REST API

要使用 GroupDocs.Parser Cloud SDK for Python 从 XML 文档中提取文本,请按照以下步骤操作:

  • 上传 the XML file to the cloud
  • 提取 使用 Python 从 XML 中提取所有文本

上传文件

首先,使用下面给出的代码示例将 XML 文档上传到云端:

# 创建文件 API 的实例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# 调用上传文件请求
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# 将文件上传到云端
response = file_api.upload_file(request)
print(response.uploaded)

因此,上传的 XML 文件将在您的云仪表板的 [files section][https://dashboard.groupdocs.cloud/files] 中可用。

从 XML 数据中提取所有文本使用 Python

在本节中,我们将写出步骤和示例代码片段,演示如何使用 GroupDocs.Parser Cloud SDK for Python 从 XML 文档中提取文本:

  • 首先,创建 ParseApi 类的实例。
  • 其次,创建一个 TextOptions() 类的实例。
  • 第三,创建一个 FileInfo 类的实例。
  • 并将其分配给文本选项 fileInfo 方法。
  • 接下来,将 XML 文件的路径设置为输入。
  • 现在,创建一个 TextRequest() 类的实例,并传递 TextOptions 参数。
  • 最后,通过调用 ParseApi.text() 方法并传递 TextRequest 参数来获取结果。

以下代码示例展示了如何使用 REST API 在 Python 中从 XML 文档中提取文本:

# 如何使用 REST API 在 Python 中从 XML 中提取文本
try:
  # api initialization
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # 定义文本选项
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

您可以在下面的图像中查看输出:

Python 从 XML 文件中提取文本

提取 XML 数据中的所有文本使用 Python。

免费在线文档解析器

如何在线免费提取 XML 中的文本?请尝试一个 online XML parser software 来提取 XML 文件中的数据。该 XML 解析器工具是使用上述 Python 解析库开发的。

结论

总之,从 XML 文件中提取文本是处理 XML 数据时的基本任务。Python 结合 GroupDocs.Parser Cloud SDK,为从 XML 文件中提取文本提供了可靠和高效的解决方案。以下是您从本文中学到的内容:

  • 如何使用 REST API 在 Python 中提取 XML 文档中的所有文本。
  • 使用 Python 程序化地将 XML 文件上传到云端。
  • 在线 XML 数据提取软件,用于解析 XML 文档。

此外,您可以通过 documentation 了解更多关于 GroupDocs.Parser Cloud API 的信息。我们还提供了一个 API Reference 部分,让您可以直接通过浏览器可视化和交互我们的 API。Python SDK 的完整源代码可以在 Github 上免费获取。

最后,我们持续撰写关于不同文件格式和使用 REST API 进行解析的新博客文章。所以,请保持联系以获取最新动态。

Ask a question

如果您对 XML 文档解析器有任何疑问或困惑,请随时通过我们的 forum 联系我们。

常见问题解答

为什么我们需要从 XML 文件中提取文本?

从 XML 文件中提取文本使我们能够访问和处理包含在 XML 文档中的实际数据。

How can I extract text from XML files using Python?

您可以使用 GroupDocs.Parser Cloud SDK for Python 从 XML 文件中提取文本,该 SDK 提供强大的文本提取功能。

Is it possible to extract metadata from XML files using GroupDocs.Parser Cloud SDK for Python?

是的, GroupDocs.Parser Cloud SDK for Python 支持从 XML 文件中提取元数据。您可以检索元数据信息,例如作者、创建日期、修改日期等。

我可以使用 GroupDocs.Parser Cloud SDK for Python 提取嵌入在 XML 文件中的图片吗?

是的, GroupDocs.Parser Cloud SDK for Python 允许您提取嵌入在 XML 文件中的图像并将它们转换为不同的格式。

另请参阅

这里有一些相关的文章,您可能会觉得有帮助: