Trình phân tích tệp PDF – Trích xuất hình ảnh từ tệp PDF trực tuyến bằng Java

PDF(Định dạng Tài liệu Di động) là định dạng tệp được sử dụng rộng rãi để chia sẻ và lưu trữ tài liệu trực tuyến. Nó thường chứa nhiều loại nội dung khác nhau, bao gồm văn bản, hình ảnh, bảng, v.v. Trích xuất nội dung cụ thể từ tệp PDF, chẳng hạn như hình ảnh, có thể là một nhiệm vụ khó khăn nếu không có công cụ hoặc thư viện đáng tin cậy. Một công cụ như vậy là GroupDocs.Parser Cloud SDK dành cho Java, cung cấp một cách liền mạch và hiệu quả để trích xuất hình ảnh từ tệp PDF. Trong bài viết này, chúng tôi sẽ trình bày cách trích xuất hình ảnh từ tệp PDF trong Java bằng API REST.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Java REST API để tách hình ảnh khỏi bản cài đặt PDF và SDK

GroupDocs.Parser Cloud SDK for Java là một thư viện Java linh hoạt và mạnh mẽ cung cấp một cách đơn giản và hiệu quả để phân tích cú pháp và trích xuất dữ liệu từ nhiều định dạng tài liệu khác nhau, bao gồm cả tệp PDF. Nó cung cấp nhiều tính năng để phân tích cú pháp tài liệu, cho phép các nhà phát triển trích xuất hình ảnh, văn bản, siêu dữ liệu và nội dung khác. GroupDocs.Parser cũng cung cấp SDK C#.NET, Java, PHP, Ruby và Python dưới dạng các thành viên trong họ trình phân tích cú pháp tài liệu cho API đám mây.

Để bắt đầu, bạn cần đưa GroupDocs.Parser Cloud SDK vào dự án Java của mình. Bạn có thể tải xuống tệp JAR của API hoặc cài đặt nó bằng Maven bằng cách thêm kho lưu trữ và phần phụ thuộc sau vào tệp pom.xml của dự án:

Kho lưu trữ Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Phụ thuộc Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Tiếp theo, bạn cần đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Java:

# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách trích xuất tất cả hình ảnh từ tệp PDF trong Java bằng API REST

Bây giờ, hãy viết các bước và đoạn mã ví dụ để trích xuất hình ảnh từ tệp PDF bằng GroupDocs.Parser Cloud SDK cho Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tài liệu PDF đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Bây giờ, hãy tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và chuyển tham số ImagesRequest.

Mẫu mã sau đây cho biết cách trích xuất tất cả hình ảnh từ tệp PDF trực tuyến bằng Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Cách trích xuất hình ảnh từ tệp PDF trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trích xuất hình ảnh cụ thể từ tệp PDF trong Java bằng cách sử dụng số trang

Trong phần này, chúng tôi sẽ cung cấp các bước và đoạn mã để trích xuất các hình ảnh cụ thể từ tệp PDF theo chương trình trong Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tài liệu PDF đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Sau đó, cung cấp các giá trị setStartPageNumber và setCountPagesToExtract.
  • Bây giờ, hãy tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và chuyển tham số ImagesRequest.

Mẫu mã sau đây cho biết cách trích xuất các hình ảnh cụ thể từ tệp PDF theo phạm vi trang trong Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Trích xuất hình ảnh từ tệp PDF trực tuyến theo phạm vi trang trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.pdf");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trình trích xuất hình ảnh trực tuyến miễn phí

Cách tốt nhất để trích xuất hình ảnh từ PDF trực tuyến miễn phí là gì? Vui lòng thử trình phân tích cú pháp tệp PDF trực tuyến để trích xuất hình ảnh từ tệp PDF. Phần mềm Trình phân tích cú pháp PDF này được phát triển bằng cách sử dụng thư viện trình phân tích cú pháp Java như đã đề cập ở trên.

Phần kết luận

Tóm lại, GroupDocs.Parser Cloud SDK dành cho Java cung cấp giải pháp đáng tin cậy và hiệu quả để trích xuất hình ảnh từ tệp PDF một cách dễ dàng. Sau đây là những gì bạn đã học được từ bài viết này:

  • cách trích xuất tất cả hình ảnh từ tệp PDF theo lập trình trong Java bằng API REST;
  • cách trích xuất các hình ảnh cụ thể từ tài liệu PDF trong Java bằng API REST;
  • và công cụ trích xuất hình ảnh trực tuyến để trích xuất hình ảnh từ tài liệu PDF.

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github.

Cuối cùng, chúng tôi tiếp tục viết các bài blog mới trên các định dạng tệp khác nhau và phân tích cú pháp chúng bằng API REST. Vì vậy, vui lòng liên hệ để cập nhật thông tin mới nhất.

Đặt một câu hỏi

Trong trường hợp bạn có bất kỳ thắc mắc nào về cách phân tích cú pháp tài liệu, vui lòng liên hệ với chúng tôi qua diễn đàn.

câu hỏi thường gặp

Làm cách nào để phân tích cú pháp các tệp PDF bằng Java?

Để trích xuất hình ảnh, văn bản hoặc siêu dữ liệu, trước tiên bạn cần tải và phân tích cú pháp tài liệu PDF bằng GroupDocs.Parser Cloud SDK. Quá trình này bao gồm chỉ định đường dẫn tệp và gọi phương thức Parse để phân tích tệp PDF.

GroupDocs.Parser Cloud SDK dành cho Java có hỗ trợ các định dạng tệp khác ngoài PDF không?

Có, bên cạnh các tệp PDF, GroupDocs.Parser Cloud SDK cho Java hỗ trợ trích xuất hình ảnh từ các định dạng tài liệu khác nhau, bao gồm Word, Excel, PowerPoint, HTML, v.v.

Tôi có thể trích xuất tất cả hình ảnh từ tệp PDF bằng GroupDocs.Parser Cloud SDK cho Java không?

Có, bạn có thể trích xuất tất cả hình ảnh từ tệp PDF bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: