Java在线提取Word文档页面的方法

提取文档页面 - 从 Java 中的 Word 文件中提取页面。

您是否正在努力从 Java 中的 Word 文档中提取特定页面?在处理大型 Word 文档 时,从大型 Word 文档中提取特定页面可能是一项具有挑战性的任务。幸运的是,适用于 Java 的 GroupDocs.Merger Cloud SDK 可帮助您简化此过程。在本文中,我们将探讨如何使用 GroupDocs.Merger Cloud SDK for Java 从 Java 中的 Word 文件中提取页面。

本文应涵盖以下主题:

用于提取 Word 文档页面的 Java REST API - SDK 安装

GroupDocs.Merger Cloud SDK for Java 是一个强大的 API,允许开发人员合并、拆分、重新排序、提取和操作云中的文档和文件。它提供了一种简单、可靠且快速的方式来管理文档页面及其内容。它兼容大多数流行的文件格式,例如 PDF、Word、Excel、HTML、PowerPoint 等。这个功能强大的 SDK 易于使用,可以集成到基于 Java 的应用程序中以自动执行文件操作过程。

您可以 下载 API 的 JAR 文件或使用 Maven 安装它,方法是将以下存储库和依赖项添加到项目的 pom.xml 文件中:

Maven 存储库:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven 依赖项:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-merger-cloud</artifactId>
    <version>23.2</version>
    <scope>compile</scope>
</dependency>

现在,您必须在 GroupDocs 网站上注册 免费试用帐户或购买订阅计划 才能获取您的 API 密钥。获得客户端 ID 和客户端密码后,将以下代码片段添加到基于 Java 的应用程序中:

# 注册后从 https://dashboard.groupdocs.cloud 获取你的 client_id 和 client_secret。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

使用精确页码从 Java 中的 Word 文档中提取页面

现在我们已经设置了环境,让我们看看如何使用 GroupDocs.Merger Cloud SDK for Java 从 Word 文档中提取页面。以下是步骤:

上传文件

首先,使用下面给出的代码示例将Word文档上传到云端:

package com.groupdocsdev.classes;

import java.io.File;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// 使用Java上传文件到云存储
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.docx");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.docx", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

因此,上传的 Word 文件将在云上仪表板的 文件部分 中可用。

从 Java 中的 Word 文档中提取页面

在本节中,我们将介绍有关如何使用 GroupDocs.Merger Cloud SDK for Java 从 Word 文档中提取页面的步骤和示例代码片段:

  • 首先,将所需的类导入到您的 Java 文件中。
  • 其次,创建 PagesApi 类的一个实例。
  • 第三,创建 FileInfo 类的一个实例。
  • 之后,设置源输入文件路径。
  • 现在,创建 ExtractOptions() 类的一个实例。
  • 然后,以数组格式定义提取选项 setFileInfo、setOutputPath 和 setPages 集合。
  • 现在,创建 ExtractRequest() 类的实例并传递 ExtractOptions 参数。
  • 最后,通过调用 PagesApi 的 extract() 方法并传递 ExtractRequest 参数来提取 DOCX 页面。

以下代码片段显示了如何使用 REST API 将 Word 文档页面提取到 Java 中的新文件中:

package com.groupdocsdev.classes;

import java.util.Arrays;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// 使用准确的页码从 Java 中的 word 文档中提取页面。
public class App {

	public static void main(String[] args) {

		// 创建页面 API 的实例。			
		PagesApi apiInstance = new PagesApi(configuration);

		try {

			// 准备设置
			FileInfo fileInfo = new FileInfo();			
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ExtractOptions options = new ExtractOptions();
			options.setFileInfo(fileInfo);
			options.setOutputPath("java-testing/output-sample-file.docx");
			options.setPages(Arrays.asList(3, 5, 7));

			ExtractRequest request = new ExtractRequest(options);

			DocumentResult response = apiInstance.extract(request);
			
			// 获取输出文件路径
			System.out.println("Output file path: " + response.getPath());
			
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

下载文件

上面的代码示例会将提取的 Word 文档页面保存在云端。您可以使用以下代码示例下载它:

package com.groupdocsdev.classes;

import java.io.File;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// 使用 Java 从云存储下载文件
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {

			DownloadFileRequest request = new DownloadFileRequest("java-testing\\multipage-documents\\output-sample-file.docx", MyStorage, null);
			File response = apiInstance.downloadFile(request);
			System.out.println("Expected response type is downloadFile: " + response.length());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

使用页码范围从 Java 中的 Word 文件中提取页面

在本节中,我们将提供有关如何按确切页码范围从 Word 文档中提取特定页面的步骤和示例代码片段:

  • 首先,将所需的类导入到您的 Java 文件中。
  • 其次,创建 PagesApi 类的实例。
  • 第三,创建 FileInfo 类的一个实例。
  • 之后,设置源输入文件路径。
  • 现在,创建 ExtractOptions() 类的一个实例。
  • 然后,定义提取选项 setFileInfo、setOutputPath、setStartPageNumber 和 setEndPageNumber。
  • 接下来,将页面选项 setRangeMode 设置为 EVENPAGES。
  • 现在,创建 ExtractRequest() 类的实例并传递 ExtractOptions 参数。
  • 最后,通过调用 PagesApi 的 extract() 方法并传递 ExtractRequest 参数来提取页面。

以下代码片段显示了如何使用 Java 通过应用页面范围和模式来提取 Word 文件页面:

package com.groupdocsdev.classes;

import java.util.Arrays;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// 使用页码范围从 Java 中的 Word 文件中提取页面。
public class App {

	public static void main(String[] args) {
		
		// 创建页面 API 的实例。
		PagesApi apiInstance = new PagesApi(configuration);

		try {

			// 准备设置
			FileInfo fileInfo = new FileInfo();			
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ExtractOptions options = new ExtractOptions();
			options.setFileInfo(fileInfo);
			options.setOutputPath("java-testing/output-sample-file.docx");
			options.setStartPageNumber(1);
			options.setEndPageNumber(10);
			options.setRangeMode(PageOptions.RangeModeEnum.EVENPAGES);

			ExtractRequest request = new ExtractRequest(options);

			DocumentResult response = apiInstance.extract(request);
			
			// 获取输出文件路径
			System.out.println("Output file path: " + response.getPath());
			
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

免费在线 Word 文档提取器

如何免费提取Word文档页面?请尝试使用在线 Word 页面提取器 从 Word 文档中免费提取特定页面。这个在线 Word 页面提取器工具是使用上述 Groupdocs.Merger Cloud API 开发的。

结论

总之,GroupDocs.Merger Cloud SDK for Java 是一个很好的选择,可以帮助开发人员在线从 Word 文档中提取页面。以下是您在本文中学到的内容:

  • 如何使用 Java 按页码从 Word 文档中提取页面;
  • 以编程方式上传和下载云端的Word文档;
  • 使用精确的页码范围提取 Java 中的 Word DOCX 页面;
  • 并使用在线 Word 页面提取工具免费从 Word 中提取页面。

此外,我们还提供了一个 API 参考部分,可让您直接通过浏览器可视化我们的 API 并与之通信。 Java SDK 的完整源代码可在 Github 上免费获得。请查看 GroupDocs.Merger Cloud SDK for Java 此处示例

此外,我们建议您按照我们的 入门指南 了解详细步骤和 API 用法。

最后,我们不断撰写有关使用 REST API 的不同文档操作的新博文。因此,请与我们联系以获取定期更新。

问一个问题

如果您对如何提取文档页面有任何疑问,请随时在免费支持论坛 上向我们提问。

常见问题

如何使用 Java 在线从 Word 文档中提取页面?

您可以使用 GroupDocs.Merger Cloud SDK for Java 从 Word 文件中提取页面并简化您的工作流程。

我可以使用 REST API 提取特定页面吗?

是的,您可以使用 GroupDocs.Merger Cloud SDK for Java 以数组格式指定页码以提取特定页面。

GroupDocs.Merger Cloud SDK for Java 支持哪些文件格式?

GroupDocs.Merger Cloud SDK for Java 支持广泛的文件格式,包括 Word、Excel、JPG、PowerPoint, PDF、HTML 等。

我可以使用 GroupDocs.Merger Cloud SDK for Java 从 Word 文件中提取多个页面吗?

是的,您可以使用 GroupDocs.Merger Cloud SDK for Java 通过指定要提取的页面范围从 Word 文档中提取多个页面。

也可以看看

以下是一些您可能会觉得有用的相关文章: