Word 文档解析器——用 Java 在线从 Word 文件中提取图像

在需要从各种文档格式中提取数据的许多行业中,文档解析是一项至关重要的任务。使用 Word 文档时,提取图像在内容分析、图像识别或数据可视化等情况下特别有用。从大型 Word 文档中手动提取图像可能非常耗时。因此,自动化图像提取过程可以节省您的时间和精力。在本文中,我们将演示如何使用 Java 以编程方式从 Word 文档中提取图像。

本文应涵盖以下主题:

从 Word 文档和 SDK 安装中提取图像的 Java REST API

GroupDocs.Parser Cloud SDK for Java 是一个功能强大的 Java 库,它提供了一种简单有效的方法来从各种文档格式(包括 Word 文档)中解析和提取数据。它提供了广泛的文档解析功能,允许开发人员提取图像、文本、元数据等。 GroupDocs.Parser 还提供 C#.NET、Java、PHP、Ruby 和 Python SDK 作为其 文档解析器家族成员 用于云 API。

首先,您需要在 Java 项目中包含 GroupDocs.Parser Cloud SDK。您可以 下载 API 的 JAR 文件或使用 Maven 安装它,方法是将以下存储库和依赖项添加到项目的 pom.xml 文件中:

Maven 存储库:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven 依赖项:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

接下来,您需要在 GroupDocs 网站上注册 免费试用帐户或购买订阅计划获取您的 API 密钥。获得客户端 ID 和客户端密码后,将以下代码片段添加到基于 Java 的应用程序中:

# 注册后从 https://dashboard.groupdocs.cloud 获取你的 client_id 和 client_secret。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

如何使用 REST API 从 Word 文档中提取所有图像

要使用 GroupDocs.Parser Cloud SDK 从 Java 中的 Word 文档中提取图像,请按照以下步骤和示例代码片段进行操作:

  • 首先,将所需的类导入到您的 Java 文件中。
  • 其次,创建 ParseApi 类的一个实例。
  • 第三,创建 FileInfo 类的一个实例。
  • 接下来,设置输入 Word 文档的路径。
  • 然后,创建 ImagesOptions() 类的一个实例。
  • 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
  • 现在,创建 ImagesRequest() 类的实例并传递 ImagesOptions 参数。
  • 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。

以下代码示例显示了如何使用 REST API 从 Java 在线 Word 文档中提取所有图像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 如何用 Java 从 Word 文档中提取图像。
public class App {

	public static void main(String[] args) {
		
		// 创建 Parse API 的实例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 准备设置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 获取输出文件路径
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

使用页码从 Java 中的 Word 文件中提取特定图像

在本节中,我们将编写用于在 Java 中以编程方式从 Word 文档中提取特定图像的步骤和示例代码片段:

  • 首先,将所需的类导入到您的 Java 文件中。
  • 其次,创建 ParseApi 类的一个实例。
  • 第三,创建 FileInfo 类的一个实例。
  • 接下来,将 Word 文件的路径设置为输入。
  • 然后,创建 ImagesOptions() 类的一个实例。
  • 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
  • 然后,提供 setStartPageNumber 和 setCountPagesToExtract 值。
  • 现在,创建 ImagesRequest() 类的实例并传递 ImagesOptions 参数。
  • 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。

以下代码示例显示了如何使用 REST API 在 Java 中按页面范围从 Word 文件中提取特定图像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 在 Java 中按页面范围在线从 Word 文件中提取图像。
public class App {

	public static void main(String[] args) {
		
		// 创建 Parse API 的实例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 准备设置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 获取输出文件路径
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

免费在线图像提取器

免费从 Word 在线提取图像的最佳方法是什么?请尝试使用在线 Word 文档解析器 从 Word 中提取图像。此 Word Parser 工具是使用上述 Java 解析器库开发的。

结论

综上所述,GroupDocs.Parser Cloud SDK 是一款优秀的Word文档图片提取解决方案,在保证结果准确的同时,省时省力。以下是您从本文中学到的内容:

  • 如何使用 REST API 在 Java 中以编程方式从 Word DOCX 中提取所有图像;
  • 如何使用 REST API 从 Java 中的 Word 文档中提取特定图像;
  • 和在线图像提取工具,用于从 Word 文档中提取图像。

此外,您可以使用 文档 了解有关 GroupDocs.Parser Cloud API 的更多信息。我们还提供了一个 API 参考 部分,让您可以直接通过浏览器可视化我们的 API 并与之交互。 Java SDK 的完整源代码可在 Github 上免费获得。

最后,我们继续撰写关于不同文件格式的新博客文章,并使用 REST API 解析它们。因此,请联系以获取最新更新。

问一个问题

如果您对如何从文档中提取图像有任何疑问,请随时通过我们的论坛与我们联系。

常见问题

如何在 Java 中解析 Word 文档?

要提取图像或文本,您首先需要使用 GroupDocs.Parser Cloud SDK 加载和解析 Word 文档。此过程涉及指定文件路径和调用 Parse 方法来解析文档。

GroupDocs.Parser Cloud SDK 可以从其他文档格式中提取图像吗?

是的,GroupDocs.Parser Cloud SDK for Java 支持从各种文档格式中提取图像,包括 Word、PDF、Excel、PowerPoint 等。

GroupDocs.Parser Cloud SDK 可以从单个Word 文档中提取多张图片吗?

是的,SDK 可以从单个 Word 文档中提取多个图像,为您提供文档中包含的所有图像。

GroupDocs.Parser Cloud SDK 在提取过程中是否保留原始图像质量?

是的,GroupDocs.Parser Cloud SDK for Java 在从 Word 文档中提取图像时保留了原始图像质量。

也可以看看

以下是一些您可能会觉得有用的相关文章: