Word 文檔解析器——用 Java 在線從 Word 文件中提取圖像

在需要從各種文檔格式中提取數據的許多行業中,文檔解析是一項至關重要的任務。使用 Word 文檔時,提取圖像在內容分析、圖像識別或數據可視化等情況下特別有用。從大型 Word 文檔中手動提取圖像可能非常耗時。因此,自動化圖像提取過程可以節省您的時間和精力。在本文中,我們將演示如何使用 Java 以編程方式從 Word 文檔中提取圖像。

本文應涵蓋以下主題:

從 Word 文檔和 SDK 安裝中提取圖像的 Java REST API

GroupDocs.Parser Cloud SDK for Java 是一個功能強大的 Java 庫,它提供了一種簡單有效的方法來從各種文檔格式(包括 Word 文檔)中解析和提取數據。它提供了廣泛的文檔解析功能,允許開發人員提取圖像、文本、元數據等。 GroupDocs.Parser 還提供 C#.NET、Java、PHP、Ruby 和 Python SDK 作為其 文檔解析器家族成員 用於雲 API。

首先,您需要在 Java 項目中包含 GroupDocs.Parser Cloud SDK。您可以 下載 API 的 JAR 文件或使用 Maven 安裝它,方法是將以下存儲庫和依賴項添加到項目的 pom.xml 文件中:

Maven 存儲庫:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven 依賴項:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

接下來,您需要在 GroupDocs 網站上註冊 免費試用帳戶或購買訂閱計劃獲取您的 API 密鑰。獲得客戶端 ID 和客戶端密碼後,將以下代碼片段添加到基於 Java 的應用程序中:

# 註冊後從 https://dashboard.groupdocs.cloud 獲取你的 client_id 和 client_secret。

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

如何使用 REST API 從 Word 文檔中提取所有圖像

要使用 GroupDocs.Parser Cloud SDK 從 Java 中的 Word 文檔中提取圖像,請按照以下步驟和示例代碼片段進行操作:

  • 首先,將所需的類導入到您的 Java 文件中。
  • 其次,創建 ParseApi 類的一個實例。
  • 第三,創建 FileInfo 類的一個實例。
  • 接下來,設置輸入 Word 文檔的路徑。
  • 然後,創建 ImagesOptions() 類的一個實例。
  • 接下來,將 fileInfo 分配給 setFileInfo 圖像選項。
  • 現在,創建 ImagesRequest() 類的實例並傳遞 ImagesOptions 參數。
  • 最後,通過調用 ParseApi.images() 方法並傳遞 ImagesRequest 參數來獲取結果。

以下代碼示例顯示瞭如何使用 REST API 從 Java 在線 Word 文檔中提取所有圖像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 如何用 Java 從 Word 文檔中提取圖像。
public class App {

	public static void main(String[] args) {
		
		// 創建 Parse API 的實例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 準備設置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 獲取輸出文件路徑
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

使用頁碼從 Java 中的 Word 文件中提取特定圖像

在本節中,我們將編寫用於在 Java 中以編程方式從 Word 文檔中提取特定圖像的步驟和示例代碼片段:

  • 首先,將所需的類導入到您的 Java 文件中。
  • 其次,創建 ParseApi 類的一個實例。
  • 第三,創建 FileInfo 類的一個實例。
  • 接下來,將 Word 文件的路徑設置為輸入。
  • 然後,創建 ImagesOptions() 類的一個實例。
  • 接下來,將 fileInfo 分配給 setFileInfo 圖像選項。
  • 然後,提供 setStartPageNumber 和 setCountPagesToExtract 值。
  • 現在,創建 ImagesRequest() 類的實例並傳遞 ImagesOptions 參數。
  • 最後,通過調用 ParseApi.images() 方法並傳遞 ImagesRequest 參數來獲取結果。

以下代碼示例顯示瞭如何使用 REST API 在 Java 中按頁面範圍從 Word 文件中提取特定圖像:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// 在 Java 中按頁面範圍在線從 Word 文件中提取圖像。
public class App {

	public static void main(String[] args) {
		
		// 創建 Parse API 的實例
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// 準備設置
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// 獲取輸出文件路徑
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

免費在線圖像提取器

免費從 Word 在線提取圖像的最佳方法是什麼?請嘗試使用在線 Word 文檔解析器 從 Word 中提取圖像。此 Word Parser 工具是使用上述 Java 解析器庫開發的。

結論

綜上所述,GroupDocs.Parser Cloud SDK 是一款優秀的Word文檔圖片提取解決方案,在保證結果準確的同時,省時省力。以下是您從本文中學到的內容:

  • 如何使用 REST API 在 Java 中以編程方式從 Word DOCX 中提取所有圖像;
  • 如何使用 REST API 從 Java 中的 Word 文檔中提取特定圖像;
  • 和在線圖像提取工具,用於從 Word 文檔中提取圖像。

此外,您可以使用 文檔 了解有關 GroupDocs.Parser Cloud API 的更多信息。我們還提供了一個 API 參考 部分,讓您可以直接通過瀏覽器可視化我們的 API 並與之交互。 Java SDK 的完整源代碼可在 Github 上免費獲得。

最後,我們繼續撰寫關於不同文件格式的新博客文章,並使用 REST API 解析它們。因此,請聯繫以獲取最新更新。

問一個問題

如果您對如何從文檔中提取圖像有任何疑問,請隨時通過我們的論壇與我們聯繫。

常見問題

如何在 Java 中解析 Word 文檔?

要提取圖像或文本,您首先需要使用 GroupDocs.Parser Cloud SDK 加載和解析 Word 文檔。此過程涉及指定文件路徑和調用 Parse 方法來解析文檔。

GroupDocs.Parser Cloud SDK 可以從其他文檔格式中提取圖像嗎?

是的,GroupDocs.Parser Cloud SDK for Java 支持從各種文檔格式中提取圖像,包括 Word、PDF、Excel、PowerPoint 等。

GroupDocs.Parser Cloud SDK 可以從單個Word 文檔中提取多張圖片嗎?

是的,SDK 可以從單個 Word 文檔中提取多個圖像,為您提供文檔中包含的所有圖像。

GroupDocs.Parser Cloud SDK 在提取過程中是否保留原始圖像質量?

是的,GroupDocs.Parser Cloud SDK for Java 在從 Word 文檔中提取圖像時保留了原始圖像質量。

也可以看看

以下是一些您可能會覺得有用的相關文章: