PDF 文件解析器——用 Java 在線從 PDF 文件中提取圖像

PDF(便攜式文檔格式)是一種廣泛用於在線共享和保存文檔的文件格式。它通常包含各種類型的內容,包括文本、圖像、表格等。如果沒有可靠的工具或庫,從 PDF 文件中提取特定內容(例如圖像)可能是一項具有挑戰性的任務。一個這樣的工具是 GroupDocs.Parser Cloud SDK for Java,它提供了一種從 PDF 文件中提取圖像的無縫且高效的方法。在本文中,我們將演示如何使用 REST API 從 Java 中的 PDF 文件中提取圖像。

本文應涵蓋以下主題:

用於從 PDF 和 SDK 安裝中分離圖像的 Java REST API

GroupDocs.Parser Cloud SDK for Java 是一個功能強大且用途廣泛的 Java 庫,它提供了一種簡單有效的方法來從各種文檔格式(包括 PDF 文件)中解析和提取數據。它提供了廣泛的文檔解析功能,允許開發人員提取圖像、文本、元數據和其他內容。 GroupDocs.Parser 還提供 C#.NET、Java、PHP、Ruby 和 Python SDK 作為其 文檔解析器家族成員 用於雲 API。

首先,您需要在 Java 項目中包含 GroupDocs.Parser Cloud SDK。您可以 下載 API 的 JAR 文件或使用 Maven 安裝它,方法是將以下存儲庫和依賴項添加到項目的 pom.xml 文件中:

Maven 存儲庫:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven 依賴項:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

接下來,您需要在 GroupDocs 網站上註冊 免費試用帳戶或購買訂閱計劃獲取您的 API 密鑰。獲得客戶端 ID 和客戶端密碼後,將以下代碼片段添加到基於 Java 的應用程序中:

# 註冊後從 https://dashboard.groupdocs.cloud 獲取你的 client_id 和 client_secret。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

如何使用 REST API 從 PDF 文件中提取所有圖像

現在,讓我們編寫使用 GroupDocs.Parser Cloud SDK for Java 從 PDF 文件中提取圖像的步驟和示例代碼片段:

  • 首先,將所需的類導入到您的 Java 文件中。
  • 其次,創建 ParseApi 類的一個實例。
  • 第三,創建 FileInfo 類的一個實例。
  • 接下來,設置輸入 PDF 文檔的路徑。
  • 然後,創建 ImagesOptions() 類的一個實例。
  • 接下來,將 fileInfo 分配給 setFileInfo 圖像選項。
  • 現在,創建 ImagesRequest() 類的實例並傳遞 ImagesOptions 參數。
  • 最後,通過調用 ParseApi.images() 方法並傳遞 ImagesRequest 參數來獲取結果。

以下代碼示例顯示瞭如何使用 REST API 在 Java 中在線提取 PDF 文件中的所有圖像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 如何從 Java 中的 PDF 文件中提取圖像。
public class App {

	public static void main(String[] args) {
		
		// 創建 Parse API 的實例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 準備設置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 獲取輸出文件路徑
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

使用頁碼從 Java 中的 PDF 文件中提取特定圖像

在本節中,我們將提供使用 Java 以編程方式從 PDF 文件中提取特定圖像的步驟和代碼片段:

  • 首先,將所需的類導入到您的 Java 文件中。
  • 其次,創建 ParseApi 類的一個實例。
  • 第三,創建 FileInfo 類的一個實例。
  • 接下來,設置輸入 PDF 文檔的路徑。
  • 然後,創建 ImagesOptions() 類的一個實例。
  • 接下來,將 fileInfo 分配給 setFileInfo 圖像選項。
  • 然後,提供 setStartPageNumber 和 setCountPagesToExtract 值。
  • 現在,創建 ImagesRequest() 類的實例並傳遞 ImagesOptions 參數。
  • 最後,通過調用 ParseApi.images() 方法並傳遞 ImagesRequest 參數來獲取結果。

以下代碼示例顯示瞭如何使用 REST API 在 Java 中按頁面範圍從 PDF 文件中提取特定圖像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 在 Java 中按頁面範圍在線從 PDF 文件中提取圖像。
public class App {

	public static void main(String[] args) {
		
		// 創建 Parse API 的實例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 準備設置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 獲取輸出文件路徑
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

免費在線圖像提取器

免費在線從 PDF 中提取圖像的最佳方法是什麼?請嘗試使用在線 PDF 文件解析器 從 PDF 文件中提取圖像。此 PDF 解析器軟件是使用上述解析器庫使用 Java 開發的。

結論

總之,GroupDocs.Parser Cloud SDK for Java 提供了一種可靠且高效的解決方案,可輕鬆從 PDF 文件中提取圖像。以下是您從本文中學到的內容:

  • 如何使用 REST API 在 Java 中以編程方式從 PDF 文件中提取所有圖像;
  • 如何使用 REST API 從 Java 中的 PDF 文檔中提取特定圖像;
  • 和在線圖像提取工具,用於從 PDF 文檔中提取圖像。

此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。 Java SDK 的完整源代碼可在 Github 上免費獲得。

最後,我們繼續撰寫關於不同文件格式的新博客文章,並使用 REST API 解析它們。因此,請聯繫以獲取最新更新。

問一個問題

如果您對如何解析文檔有任何疑問,請隨時通過我們的論壇與我們聯繫。

常見問題

如何使用 Java 解析 PDF 文件?

要提取圖像、文本或元數據,您首先需要使用 GroupDocs.Parser Cloud SDK 加載和解析 PDF 文檔。這個過程包括指定文件路徑和調用 Parse 方法來解析 PDF 文件。

GroupDocs.Parser Cloud SDK for Java 是否支持 PDF 以外的其他文件格式?

是的,除了 PDF 文件,GroupDocs.Parser Cloud SDK for Java 支持從各種文檔格式中提取圖像,包括 Word、Excel、PowerPoint, HTML 等等。

我可以使用 GroupDocs.Parser Cloud SDK for Java 從 PDF 文件中提取所有圖像嗎?

是的,您可以使用 GroupDocs.Parser Cloud SDK for Java 從 PDF 文件中提取所有圖像。

也可以看看

以下是一些您可能會覺得有用的相關文章: