在各种情况下,我们可能需要解析Word文档并提取图像或文本。从 Word 文档中提取图像和文本有助于分析文本、重复使用或将它们组合到其他文档中。我们可以轻松地解析 DOC 或 DOCX 文件,并以编程方式在云端提取所有图像/文本。在本文中,我们将学习如何在 Python 中使用 REST API 解析 Word 文档。
本文应涵盖以下主题:
- Word 文档解析器 REST API 和 Python SDK
- 在 Python 中使用 REST API 解析 Word 文档和提取图像
- 在 Python 中使用 REST API 从 Word 文档中提取文本
Word 文档解析器 REST API 和 Python SDK
对于解析 Word 文档,我们将使用 GroupDocs.Parser Cloud 的 Python SDK API。请在控制台中使用以下命令安装它以解析文档:
pip install groupdocs_parser_cloud
在执行上述步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和密码后,添加如下所示的代码:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
在 Python 中使用 REST API 解析 Word 文档和提取图像
我们可以按照以下步骤以编程方式解析 Word 文档并提取图像:
- 上传DOCX文件到云端
- 使用 Python 从 Word 文档中提取图像
- 下载提取的图片
上传文件
首先,我们将使用下面给出的代码示例将 Word 文档 (DOCX) 上传到云端:
# 创建 API 实例
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# 创建上传文件请求
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# 上传文件
response = file_api.upload_file(request)
因此,上传的 DOCX 文件将在云端仪表板的 文件部分 中可用。
使用 Python 从 Word 文档中提取图像
按照下面给出的步骤,我们可以轻松地以编程方式从 Word 文档中提取所有图像。
- 首先,创建 ParseApi 的实例。
- 接下来,创建 FileInfo 的实例。
- 然后,设置输入 DOCX 文件的路径。
- 接下来,创建 ImageOptions 的实例。
- 然后,将 FileInfo 分配给 ImageOptions。
- 之后,使用 ImageOptions 作为参数创建 ImagesRequest。
- 最后,通过使用 ImageRequest 调用 ParseApi.images() 方法来提取图像。
以下代码示例显示了如何使用 Python 中的文档解析 REST API 从 DOCX 文件中提取图像。
# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定义图像选项
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 创建图像请求
request = groupdocs_parser_cloud.ImagesRequest(options)
# 获取图像
result = parseApi.images(request)
下载提取的图像
上面的代码示例将使用 word 文件解析器将提取的图像保存在云端。我们可以使用下面给出的代码示例下载这些图像:
# API初始化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# 获取文件列表
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# 一张一张下载图片
for data in response.value:
# 创建下载文件请求
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# 下载文件
response = file_api.download_file(request)
# 将下载的文件移动到您的工作目录
shutil.move(response, "C:\\Files\\parser\\")
在 Python 中使用 REST API 从 Word 文档中提取文本
按照下面给出的步骤,我们可以轻松地以编程方式从 Word 文档中提取所有文本。
- 首先,创建 ParseApi 的实例。
- 接下来,创建 FileInfo 的实例。
- 然后,设置输入 DOCX 文件的路径。
- 接下来,创建 TextOptions 的实例。
- 然后,将 FileInfo 分配给 TextOptions。
- 之后,使用 TextOptions 作为参数创建 TextRequest。
- 最后,使用 TextRequest 调用 ParseApi.text() 方法获取结果。
以下代码示例展示了如何使用 docx 解析器 REST API 从 DOCX 文件中提取文本。
# API初始化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# 定义文本选项
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# 创建文本请求
request = groupdocs_parser_cloud.TextRequest(options)
# 获取文本
result = parseApi.text(request)
print("Text: " + result.text)
在线试用
如何免费使用在线文档解析软件?请试用以下免费的在线DOCX解析工具,该工具是使用上述解析word文档python API开发的。 https://products.groupdocs.app/parser/docx
结论
在本文中,我们学习了如何使用云端的Word解析器来解析Word文档。我们还了解了如何使用 parse docx Python 从 DOCX 文件中提取图像和文本。本文还介绍了如何以编程方式将 DOCX 文件上传到云端并从云端下载提取的图像。此外,您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。如果对文档解析和解析文件有任何歧义,请随时在论坛上与我们联系。