
PDF(便携文档格式) 是一种广泛使用的文件格式,用于在线分享和保存文档。它通常包含各种类型的内容,包括文本、图像、表格等。从 PDF 文件中提取特定内容,如图像,可能是一个具有挑战性的任务,特别是在没有可靠工具或库的情况下。一个这样的工具是 GroupDocs.Parser Cloud SDK for Java,它提供了一种无缝且高效的方法来从 PDF 文件中提取图像。在本文中,我们将演示如何使用 REST API 在 Java 中从 PDF 文件中提取图像。
本文将涵盖以下主题:
Java REST API to Separate Images from PDF and SDK Installation
GroupDocs.Parser Cloud SDK for Java 是一个强大且多功能的 Java 库,提供了一种简单而高效的方法来解析和提取各种 document formats 的数据,包括 PDF 文件。它为文档解析提供了广泛的功能,允许开发人员提取图像、文本、元数据和其他内容。GroupDocs.Parser 还提供 C#.NET、Java、PHP、Ruby 和 Python SDK 作为其 document parser family members 的云 API。
要开始,您需要在您的 Java 项目中包含 GroupDocs.Parser Cloud SDK。您可以 下载 API 的 JAR 文件,或者通过在项目的 pom.xml 文件中添加以下仓库和依赖项来使用 Maven 安装它:
Maven 仓库:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven 依赖:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
接下来,您需要 sign up 一个免费试用账户或 purchase a subscription plan 在 GroupDocs 网站上,并 get your API key。一旦您拥有客户端 ID 和客户端密钥,请将以下代码片段添加到基于 Java 的应用程序中:
# 获取您的 clientid 和 clientsecret,注册后请访问 https://dashboard.groupdocs.cloud。
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
如何在 Java 中使用 REST API 从 PDF 文件中提取所有图像
现在,让我们编写步骤和一个示例代码片段,以使用 GroupDocs.Parser Cloud SDK for Java 从 PDF 文件中提取图像:
- 首先,将所需的类导入到您的 Java 文件中。
- 其次,创建 ParseApi 类的一个实例。
- 第三,创建 FileInfo 类的实例。
- 接下来,设置输入 PDF 文档的路径。
- 然后,创建一个 ImagesOptions() 类的实例。
- 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
- 现在,创建一个 ImagesRequest() 类的实例并传递 ImagesOptions 参数。
- 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。
以下代码示例显示了如何使用 REST API 在线从 PDF 文件中提取所有图像:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// 如何在 Java 中从 PDF 文件中提取图像。
public class App {
public static void main(String[] args) {
// 创建 Parse API 的实例
ParseApi apiInstance = new ParseApi(configuration);
try {
// 准备设置
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 获取输出文件路径
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
从 PDF 文件中提取特定图像到 Java,按页码
在本节中,我们将提供步骤和代码片段,以编程方式在 Java 中从 PDF 文件中提取特定图像:
- 首先,将所需的类导入到您的 Java 文件中。
- 其次,创建一个 ParseApi 类的实例。
- 第三,创建 FileInfo 类的实例。
- 接下来,设置输入 PDF 文档的路径。
- 然后,创建一个 ImagesOptions() 类的实例。
- 接下来,将 fileInfo 分配给 setFileInfo 图像选项。
- 然后,提供 setStartPageNumber 和 setCountPagesToExtract 的值。
- 现在,创建一个 ImagesRequest() 类的实例并传递 ImagesOptions 参数。
- 最后,通过调用 ParseApi.images() 方法并传递 ImagesRequest 参数来获取结果。
以下代码示例演示了如何通过页码范围从 PDF 文件中提取特定图像,使用 Java 和 REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// 从 PDF 文件中按页面范围在线提取图像,使用 Java。
public class App {
public static void main(String[] args) {
// 创建 Parse API 的实例
ParseApi apiInstance = new ParseApi(configuration);
try {
// 准备设置
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.pdf");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// 获取输出文件路径
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
免费在线图像提取器
提取 PDF 中的图像的最佳方法是什么?请尝试一个 online PDF File parser 来从 PDF 文件中提取图像。这个 PDF 解析器软件是使用上面提到的 Java 解析器库开发的。
结论
总之,GroupDocs.Parser Cloud SDK for Java 提供了一种可靠和高效的解决方案,可以轻松从 PDF 文件中提取图像。以下是您从本文中学到的内容:
- 如何通过 REST API 在 Java 中以编程方式提取 PDF 文件中的所有图像;
- 如何使用 REST API 在 Java 中从 PDF 文档中提取特定图像;
- 在线图像提取工具,用于从 PDF 文档中提取图像。
此外,您可以通过 documentation 了解更多关于 GroupDocs.Parser Cloud API 的信息。我们还提供了一个 API Reference 部分,允许您直接通过浏览器可视化和互动我们的 API。Java SDK 的完整源代码可以在 Github 上免费获取。
最终,我们将继续撰写关于不同文件格式的新博客文章,并使用 REST API 对其进行解析。因此,请保持联系以获取最新更新。
Ask a question
如果您对如何解析文档有任何疑问,请随时通过我们的 forum 联系我们。
常见问题解答
How do I parse PDF files using Java?
要提取图像、文本或元数据,您首先需要使用 GroupDocs.Parser Cloud SDK 加载和解析 PDF 文档。这个过程涉及指定文件路径并调用 Parse 方法以解析 PDF 文件。
GroupDocs.Parser Cloud SDK for Java 是否支持其他文件格式,除了 PDF?
是的,除了 PDF 文件, GroupDocs.Parser Cloud SDK for Java 支持从各种文档格式中提取图像,包括 Word、Excel、PowerPoint, HTML 等等。
Can I extract all images from a PDF file using GroupDocs.Parser Cloud SDK for Java?
是的,您可以使用 GroupDocs.Parser Cloud SDK for Java 从 PDF 文件中提取所有图像。
另请参阅
以下是一些相关的文章,您可能会觉得有帮助: