免费在线 DOCX 解析器旨在从 DOCX 或 DOC 中提取文本、图像和图片。

在 Python 中使用 REST API 解析 Word 文档

在各种情况下,我们可能需要解析Word文档并提取图像或文本。从 Word 文档中提取图像和文本有助于分析文本、重复使用或将它们组合到其他文档中。我们可以轻松地解析 DOCDOCX 文件,并以编程方式在云端提取所有图像/文本。在本文中,我们将学习如何在 Python 中使用 REST API 解析 Word 文档。

本文应涵盖以下主题:

Word 文档解析器 REST API 和 Python SDK

对于解析 Word 文档,我们将使用 GroupDocs.Parser Cloud 的 Python SDK API。请在控制台中使用以下命令安装它以解析文档:

pip install groupdocs_parser_cloud

在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,添加如下所示的代码:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

在 Python 中使用 REST API 解析 Word 文档和提取图像

我们可以按照以下步骤以编程方式解析 Word 文档并提取图像:

上传文件

首先,我们将使用下面给出的代码示例将 Word 文档 (DOCX) 上传到云端:

# 创建 API 实例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# 创建上传文件请求
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)

# 上传文件
response = file_api.upload_file(request)

因此,上传的 DOCX 文件将在云端仪表板的 文件部分 中可用。

使用 Python 从 Word 文档中提取图像

按照下面给出的步骤,我们可以轻松地以编程方式从 Word 文档中提取所有图像。

  • 首先,创建 ParseApi 的实例。
  • 接下来,创建 FileInfo 的实例。
  • 然后,设置输入 DOCX 文件的路径。
  • 接下来,创建 ImageOptions 的实例。
  • 然后,将 FileInfo 分配给 ImageOptions。
  • 之后,使用 ImageOptions 作为参数创建 ImagesRequest。
  • 最后,通过使用 ImageRequest 调用 ParseApi.images() 方法来提取图像。

以下代码示例显示了如何使用 Python 中的文档解析 REST API 从 DOCX 文件中提取图像。

# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定义图像选项
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 创建图像请求
request = groupdocs_parser_cloud.ImagesRequest(options)

# 获取图像
result = parseApi.images(request)
使用python parse word docx解析Word DOCX并提取图像

在 Python 中使用 Word Parser Online REST API 解析 Word 文档和提取图像。

下载提取的图像

上面的代码示例将使用 word 文件解析器将提取的图像保存在云端。我们可以使用下面给出的代码示例下载这些图像:

# API初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)

# 获取文件列表
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)

# 一张一张下载图片
for data in response.value:
    # 创建下载文件请求
    request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
    # 下载文件
    response = file_api.download_file(request)
    # 将下载的文件移动到您的工作目录
    shutil.move(response, "C:\\Files\\parser\\")

在 Python 中使用 REST API 从 Word 文档中提取文本

按照下面给出的步骤,我们可以轻松地以编程方式从 Word 文档中提取所有文本。

  • 首先,创建 ParseApi 的实例。
  • 接下来,创建 FileInfo 的实例。
  • 然后,设置输入 DOCX 文件的路径。
  • 接下来,创建 TextOptions 的实例。
  • 然后,将 FileInfo 分配给 TextOptions。
  • 之后,使用 TextOptions 作为参数创建 TextRequest。
  • 最后,使用 TextRequest 调用 ParseApi.text() 方法获取结果。

以下代码示例展示了如何使用 docx 解析器 REST API 从 DOCX 文件中提取文本。

# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"

# 创建文本请求
request = groupdocs_parser_cloud.TextRequest(options)

# 获取文本
result = parseApi.text(request)
print("Text: " + result.text)
在 Python 中使用 REST API 从 Word 文档 DOCX 中提取文本

在 Python 中使用 REST API 从 Word 文档中提取文本。

在线试用

如何免费使用在线文档解析软件?请试用以下免费的在线DOCX解析工具,该工具是使用上述解析word文档python API开发的。 https://products.groupdocs.app/parser/docx

结论

在本文中,我们学习了如何使用云端的Word解析器来解析Word文档。我们还了解了如何使用 parse docx Python 从 DOCX 文件中提取图像和文本。本文还介绍了如何以编程方式将 DOCX 文件上传到云端并从云端下载提取的图像。此外,您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。如果对文档解析和解析文件有任何歧义,请随时在论坛上与我们联系。

也可以看看