Trình phân tích tệp PDF - Trích xuất hình ảnh từ tệp PDF trực tuyến bằng Java

PDF(Portable Document Format) là định dạng tệp được sử dụng rộng rãi để chia sẻ và bảo tồn tài liệu trực tuyến. Nó thường chứa nhiều loại nội dung khác nhau, bao gồm văn bản, hình ảnh, bảng biểu, và nhiều hơn nữa. Việc trích xuất nội dung cụ thể từ các tệp PDF, chẳng hạn như hình ảnh, có thể là một nhiệm vụ đầy thử thách mà không có công cụ hoặc thư viện đáng tin cậy. Một trong những công cụ như vậy là GroupDocs.Parser Cloud SDK cho Java, cung cấp một cách liền mạch và hiệu quả để trích xuất hình ảnh từ các tệp PDF. Trong bài viết này, chúng tôi sẽ trình bày cách trích xuất hình ảnh từ các tệp PDF trong Java bằng cách sử dụng REST API.

Các chủ đề sau sẽ được đề cập trong bài viết này:

Java REST API để Tách Hình Ảnh từ PDF và Cài Đặt SDK

GroupDocs.Parser Cloud SDK for Java là một thư viện Java mạnh mẽ và đa năng cung cấp một cách đơn giản và hiệu quả để phân tích và trích xuất dữ liệu từ nhiều định dạng tài liệu, bao gồm cả tệp PDF. Nó cung cấp một loạt các tính năng cho việc phân tích tài liệu, cho phép các nhà phát triển trích xuất hình ảnh, văn bản, siêu dữ liệu và các nội dung khác. GroupDocs.Parser cũng cung cấp C#.NET, Java, PHP, Ruby và Python SDK như là các thành viên trong gia đình bộ phân tích tài liệu cho các API Cloud.

Để bắt đầu, bạn cần bao gồm GroupDocs.Parser Cloud SDK vào dự án Java của bạn. Bạn có thể download tệp JAR của API hoặc cài đặt nó bằng cách sử dụng Maven bằng cách thêm kho lưu trữ và phụ thuộc sau vào tệp pom.xml của dự án của bạn:

Maven Repository:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Maven Dependency:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Tiếp theo, bạn cần đăng ký một tài khoản dùng thử miễn phí hoặc mua một gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Khi bạn có Client Id và Client Secret, hãy thêm đoạn mã dưới đây vào một ứng dụng dựa trên Java:

# Lấy clientid và clientsecret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách Trích Xuất Tất Cả Hình Ảnh từ Tệp PDF trong Java sử dụng REST API

Bây giờ, hãy viết các bước và một đoạn mã ví dụ để trích xuất hình ảnh từ file PDF sử dụng GroupDocs.Parser Cloud SDK cho Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, thiết lập đường dẫn đến tài liệu PDF đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Bây giờ, tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và truyền tham số ImagesRequest.

Mẫu mã dưới đây cho thấy cách trích xuất tất cả hình ảnh từ một tệp PDF trực tuyến bằng Java sử dụng REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Làm thế nào để trích xuất hình ảnh từ tệp PDF trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Lấy đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trích xuất Hình ảnh Cụ thể từ Tệp PDF trong Java sử dụng Số Trang

Trong phần này, chúng tôi sẽ cung cấp các bước và một đoạn mã để trích xuất các hình ảnh cụ thể từ tệp PDF theo chương trình bằng Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, thiết lập đường dẫn đến tài liệu PDF đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Sau đó, cung cấp giá trị cho setStartPageNumber và setCountPagesToExtract.
  • Bây giờ, tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và truyền tham số ImagesRequest.

Mẫu mã sau đây cho thấy cách trích xuất các hình ảnh cụ thể từ tệp PDF theo khoảng trang trong Java bằng cách sử dụng REST API:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Trích xuất hình ảnh từ tệp PDF trực tuyến theo phạm vi trang trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của API Parse
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị các cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Lấy đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trình trích xuất hình ảnh trực tuyến miễn phí

Cách tốt nhất để trích xuất hình ảnh từ PDF trực tuyến miễn phí là gì? Vui lòng thử một online PDF File parser để trích xuất hình ảnh từ các tệp PDF. Phần mềm PDF Parser này được phát triển bằng Java như đã đề cập ở trên thư viện parser.

Kết luận

Cuối cùng, GroupDocs.Parser Cloud SDK cho Java cung cấp một giải pháp đáng tin cậy và hiệu quả để trích xuất hình ảnh từ các tệp PDF một cách dễ dàng. Dưới đây là những gì bạn đã học được từ bài viết này:

  • How to extract all images from PDF files programmatically in Java using REST API;
  • Cách trích xuất hình ảnh cụ thể từ tài liệu PDF trong Java sử dụng REST API;
  • Công cụ trích xuất hình ảnh trực tuyến để trích xuất hình ảnh từ tài liệu PDF.

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API qua documentation. Chúng tôi cũng cung cấp một phần API Reference cho phép bạn hình dung và tương tác với các API của chúng tôi trực tiếp thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github.

Cuối cùng, chúng tôi tiếp tục viết các bài blog mới về các định dạng tệp khác nhau và phân tích chúng bằng cách sử dụng REST API. Vì vậy, xin hãy liên hệ để nhận các cập nhật mới nhất.

Ask a question

Trong trường hợp bạn có bất kỳ câu hỏi nào về cách phân tích tài liệu, xin vui lòng liên hệ với chúng tôi qua forum.

Câu hỏi thường gặp

How do I parse PDF files using Java?

Để trích xuất hình ảnh, văn bản hoặc siêu dữ liệu, bạn trước tiên cần tải và phân tích tài liệu PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK. Quy trình này bao gồm việc chỉ định đường dẫn tệp và gọi phương thức Parse để phân tích các tệp PDF.

Does GroupDocs.Parser Cloud SDK for Java support other file formats besides PDF?

Có, ngoài các tệp PDF, GroupDocs.Parser Cloud SDK for Java hỗ trợ việc trích xuất hình ảnh từ nhiều định dạng tài liệu khác nhau, bao gồm Word, Excel, PowerPoint, HTML và nhiều hơn nữa.

Tôi có thể trích xuất tất cả hình ảnh từ tệp PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK cho Java không?

Có, bạn có thể trích xuất tất cả hình ảnh từ một tệp PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: