
文档解析在许多行业中是一个关键任务,许多行业需要从各种文档格式中提取数据。当处理 Word 文档时,提取图像在内容分析、图像识别或数据可视化等情况下特别有用。从大型 Word 文档中手动提取图像可能非常耗时。因此,自动化图像提取过程可以节省时间和精力。在本文中,我们将演示如何在 Java 中以编程方式从 Word 文档中提取图像。
本文将涵盖以下主题:
- Java REST API to Extract Images from Word Documents and SDK Installation
- 如何使用 REST API 在 Java 中提取 Word 文档中的所有图像
- 从 Word 文件中提取特定图片,使用页码,Java
Java REST API to Extract Images from Word Documents and SDK Installation
GroupDocs.Parser Cloud SDK for Java 是一个强大的 Java 库,提供了一种简单高效的方式来解析和提取各种 document formats 中的数据,包括 Word 文档。它提供了广泛的文档解析功能,允许开发人员提取图像、文本、元数据等。GroupDocs.Parser 还为 Cloud API 提供了 C#.NET、Java、PHP、Ruby 和 Python SDK,作为其 document parser family members。
要开始,您需要在您的 Java 项目中包含 GroupDocs.Parser Cloud SDK。您可以通过 下载 API 的 JAR 文件,或者通过将以下仓库和依赖项添加到您项目的 pom.xml 文件中使用 Maven 进行安装:
Maven 仓库:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven 依赖:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
接下来,您需要 sign up 注册一个免费试用帐户或 purchase a subscription plan 在 GroupDocs 网站上并 get your API key。一旦您拥有 Client Id 和 Client Secret,请将以下代码片段添加到基于 Java 的应用程序中:
# 从 https://dashboard.groupdocs.cloud 注册后获取您的 clientid 和 clientsecret。
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
如何在Java中使用REST API提取Word文档中的所有图像
要使用 GroupDocs.Parser Cloud SDK 从 Word 文档中提取图像,请按照以下步骤和示例代码片段操作:
- 首先,将所需的类导入到您的 Java 文件中。
- 其次,创建一个 ParseApi 类的实例。
- 第三,创建一个 FileInfo 类的实例。
- 接下来,设置输入 Word 文档的路径。
- 然后,创建一个 ImagesOptions() 类的实例。
- 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
- 现在,创建 ImagesRequest() 类的一个实例,并传入 ImagesOptions 参数。
- 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。
以下代码示例演示了如何使用 REST API 在线提取 Word 文档中的所有图像:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// 如何在 Java 中从 Word 文档中提取图像。
public class App {
public static void main(String[] args) {
// 创建 Parse API 的实例
ParseApi apiInstance = new ParseApi(configuration);
try {
// 准备设置
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 获取输出文件路径
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
从 Word 文件中提取特定图像,使用页面编号
在本节中,我们将编写步骤和一个示例代码片段,用于在 Java 中以编程方式从 Word 文档中提取特定图像:
- 首先,将所需的类导入到您的 Java 文件中。
- 其次,创建一个 ParseApi 类的实例。
- 第三,创建 FileInfo 类的实例。
- 接下来,将Word文件的路径设置为输入。
- 然后,创建一个 ImagesOptions() 类的实例。
- 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
- 然后,提供 setStartPageNumber 和 setCountPagesToExtract 的值。
- 现在,创建 ImagesRequest() 类的一个实例,并传入 ImagesOptions 参数。
- 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。
以下代码示例演示了如何使用 REST API 在 Java 中根据页面范围从 Word 文件中提取特定图像:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// 从 Word 文件在线按页码范围提取图像,使用 Java。
public class App {
public static void main(String[] args) {
// 创建 Parse API 的实例
ParseApi apiInstance = new ParseApi(configuration);
try {
// 准备设置
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 获取输出文件路径
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
免费在线图像提取器
提取在线 Word 文档中的图像的最佳方法是什么?请尝试一个 online Word document parser 来提取 Word 中的图像。这个 Word Parser 工具是使用上述 Java 解析库开发的。
结论
总之,GroupDocs.Parser Cloud SDK 是从 Word 文档中提取图像的优秀解决方案,节省时间和精力,同时确保准确的结果。以下是您从本文中学到的内容:
- 如何使用 REST API 在 Java 中以编程方式从 Word DOCX 中提取所有图像;
- 如何使用 REST API 从 Word 文档中提取特定图像;
- 和在线图像提取工具从Word文档中提取图像。
此外,您可以通过 documentation 了解更多关于 GroupDocs.Parser Cloud API 的信息。我们还提供 API Reference 部分,让您可以直接通过浏览器可视化并与我们的 API 交互。Java SDK 的完整源代码可以在 Github 上免费获取。
最终,我们继续撰写有关不同文件格式的新博客文章,并使用 REST API 解析它们。因此,请随时联系我们以获取最新更新。
Ask a question
如果您对如何从文档中提取图像有任何疑问,请随时通过我们的 forum 联系我们。
常见问题解答
如何在Java中解析Word文档?
要提取图像或文本,您首先需要使用 GroupDocs.Parser Cloud SDK 加载和解析 Word 文档。此过程涉及指定文件路径并调用 Parse 方法来解析文档。
GroupDocs.Parser Cloud SDK 是否可以从其他文档格式中提取图像?
是的, GroupDocs.Parser Cloud SDK for Java 支持从各种文档格式中提取图像,包括 Word、PDF、Excel、PowerPoint 等等。
GroupDocs.Parser Cloud SDK 是否可以从单个 Word 文档中提取多个图像?
是的,SDK 可以从单个 Word 文档中提取多张图片,为您提供文档中包含的所有图片。
GroupDocs.Parser Cloud SDK 在提取过程中是否保留了原始图像质量?
是的, GroupDocs.Parser Cloud SDK for Java 在从 Word 文档中提取图像时保持原始图像质量。
另请参阅
这里有一些您可能会觉得有用的相关文章: