如何在 Python 中从 Word 文档中提取页面

如何在 Python 中从 Word 文档中提取页面

您可能需要以编程方式将 word 文档按页拆分为多个文档。通过拆分 word 文档,您可以轻松地从 word 文档中提取页面,并与利益相关者共享特定的信息或数据。作为 Python 开发人员,您可以在线将 word 文档拆分成单独的文件,放在云端。在本文中,您将学习如何使用 Python 从 word 文档中提取页面。

本分页器文章应涵盖以下主题:

Word 文档拆分器 REST API - Python SDK

要将 word 文件拆分为多个文件,我将使用 GroupDocs.Merger Cloud API 的 Python SDK。它允许您从 WordExcel、[Visio 绘图]支持的文档格式 中旋转、拆分、合并、删除和重新排列单个页面或页面集合 6PDFHTML。 Python 源代码存储库 在 GitHub 上免费提供。

可以免费下载 Word 文件拆分器。您可以使用 PyPI 中的 PIP 将 word doc splitter 安装到您的 Python 应用程序,方法是在终端中使用以下命令:

pip install groupdocs-merger-cloud

在执行下面提到的步骤之前,请从仪表板获取您的客户端 ID 和密码。获得 ID 和 Secret 后,将以下代码添加到您的应用程序中,以将 word 文档拆分为单独的文件,如下所示:

# 导入groupdocs合并SDK
import groupdocs_merger_cloud

# 免费注册后,从 https://dashboard.groupdocs.cloud 获取 app_sid 和 app_key。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# 获取文件 API 配置 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

如何在 Python 中将 Word 文档拆分为单个文档

您可以按照下面提到的步骤在云上以编程方式拆分 docx。

上传Word文档

首先,我们将word文件上传到云端,使用下面给出的代码示例从word online中提取页面:

# 将Word文件上传到云存储
# 创建文件 API 的实例
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# 调用上传文件请求
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\word-file.docx", "H:\\groupdocs-cloud-data\\word-file.docx", storage_name)

# 上传word文件到云端
response = file_api.upload_file(request)
print(response.uploaded)

因此,上传的文件将在云端仪表板的 文件部分 中可用。

在 Python 中拆分 Word 文档页面

您可以按照以下步骤以编程方式将单词页面拆分为单独的文件:

  • 首先,创建 DocumentApi 的实例。
  • 然后,创建 SplitOptions 的实例
  • 现在,创建 FileInfo 的一个实例
  • 将输入文件路径作为参数传递给 FileInfo
  • 接下来,提供输出文件路径
  • 在逗号分隔数组中设置特定页码
  • 现在,将 docx 拆分模式设置为页面。它允许在逗号分隔的数组中拆分页码
  • 使用 SplitOptions 创建 SplitRequest
  • 最后,以 SplitRequest 作为参数调用 DocumentAPI.split() 方法并获得结果

以下代码片段显示了如何在 Python 中使用 REST API 将 word 文件拆分为单独的页面:

# 如何在 Python 中将 Word 文档拆分为单个文档
try:
    # 创建文档 API 的实例
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [1, 3]
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split word docx to single page document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))
如何在 Python 中将 Word 文件拆分为单独的页面

如何在 Python 中将 Word 文件拆分为单独的页面

下载单个文件

最后,上面的代码示例将使用 python 将分离的文件保存在云端。可以使用以下代码示例下载它:

# API初始化下载分离文件
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# 创建下载文件请求
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\word-file.docx", storage_name)

# 下载分离文件
response = file_api.download_file(request)

# 将下载的文件移动到您的目录
shutil.move(response, "H:\\groupdocs-cloud-data\\")

在 Python 中按页面范围将 Word 文档拆分为单个文档

您可以使用以下步骤在线将 word 文档拆分为多个文档:

  • 创建 DocumentApi 的实例
  • 然后,创建 SplitOptions 的实例
  • 现在,创建 FileInfo 的一个实例
  • 将输入文件路径作为参数传递给 FileInfo
  • 接下来,提供输出文件路径 as “python-testing”
  • 设置 start\page\number 和 end\page\number 值
  • 将 docx 拆分模式设置为 Pages 以拆分单词
  • 使用 SplitOptions 创建 SplitRequest
  • 最后,以 SplitRequest 作为参数调用 DocumentAPI.split() 方法

以下代码片段显示了如何使用 REST API 从 Python 中的 Word 文档中提取页面:

# 如何在 Python 中按页面范围将 Word 文档拆分为单个文档
try:
    # 创建文档 API 的实例
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word to single files by page range: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

通过应用过滤器将 Word 文档拆分为单独的文件

您可以使用范围模式在线将 word 文档按页拆分为多个文档,并以编程方式进行过滤,如下所示:

  • 创建 DocumentApi 的实例
  • 然后,创建 SplitOptions 的实例
  • 现在,创建 FileInfo 的一个实例
  • 将输入文件路径作为参数传递给 FileInfo
  • 接下来,提供输出文件路径 as “python-testing”
  • 设置 start\page\number 和 end\page\number 值
  • 接下来,将 range\mode 设置为“OddPages”
  • 将 docx 拆分模式设置为 Pages 以拆分单词
  • 使用 SplitOptions 创建 SplitRequest
  • 最后,以 SplitRequest 作为参数调用 DocumentAPI.split() 方法

以下代码片段显示了如何在 Python 中使用 REST API 应用过滤器来提取 word 文档页面:

# 如何通过应用过滤器将 Word 文档拆分为单独的文件
try:
    # 创建文档 API 的实例
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.range_mode = "OddPages"
    options.mode = "Pages" # mode Intervals

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word by range of pages and using filter: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

如何使用 Python 将 Word Doc 拆分为多个文件

您可以按照以下步骤以编程方式将 word 文件拆分为多个文档:

  • 创建 DocumentApi 的实例
  • 然后,创建 SplitOptions 的实例
  • 现在,创建 FileInfo 的一个实例
  • 将输入文件路径作为参数传递给 FileInfo
  • 接下来,提供输出文件路径 as “python-testing”
  • 然后,以数组格式设置页面集合
  • 将 docx 拆分模式设置为间隔以拆分单词
  • 使用 SplitOptions 创建 SplitRequest
  • 最后,以 SplitRequest 作为参数调用 DocumentAPI.split() 方法

以下代码片段显示了如何在 Python 中使用 REST API 将 docx 拆分为多个文件:

# 如何使用 Python 将 Docx 文件拆分为多个文件
try:
    # 创建文档 API 的实例
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [3, 6, 8]
    options.mode = "Intervals"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word file to multiple files: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

在线拆分 Word 文件

如何免费在线将word文档拆分成多个文件?您可以尝试我们的在线 word 文档拆分器 将 word 文档按固定页数或不同的页面范围免费在线拆分为多个文件。多页word文档被分成多个word文件,保持原始文档的格式。

结论

在本教程中,我们学习了:

  • 云端Python如何将word文件一分为二;
  • 如何在 Python 中将 docx 文件拆分为单独的文件;
  • 如何以编程方式在 Python 中按页拆分 word 文档;
  • 如何以编程方式在 Python 中在线将 word 文档拆分为多个文档;
  • 如何使用在线Word页面拆分器免费在线拆分Word文件;

此外,您可以使用 文档 了解有关 GroupDocs.Merger Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之通信。此外,请参阅适用于 Python 的 GroupDocs.Merger Cloud SDK 此处示例

问一个问题

如果您对如何在线从word文档中提取页面有任何疑问,请随时在论坛上向我们提问

常见问题

如何使用 docx 拆分器 API 在线从 word 文档中提取页面?

安装文档拆分器免费下载Python库在线提取word页面。您可以访问 文档 以获取完整的 API 详细信息。

在线免费拆分 word 文档的最快方法是什么?

Word page extractor online 运行速度非常快,你可以在几秒钟内在线拆分 docx。

如何免费从word online中提取页面?

  • 打开在线单词页面提取器
  • 在文件放置区内单击以上传 word docx 文件或拖放 word 文件。
  • 单击“转换”按钮。您的文档将被上传并转换为 DOC 格式。
  • 拆分后将立即提供输出文件的下载链接。

使用免费的在线文档拆分器安全吗?

是的,document splitter word 是安全的,没有人可以访问您上传的文件。我们会在 24 小时后删除上传的文件。

也可以看看