Trình phân tích cú pháp tài liệu Word – Trích xuất hình ảnh từ tệp Word trực tuyến trong Java

Phân tích cú pháp tài liệu là một nhiệm vụ quan trọng trong nhiều ngành yêu cầu trích xuất dữ liệu từ các định dạng tài liệu khác nhau. Khi làm việc với tài liệu Word, trích xuất hình ảnh có thể đặc biệt hữu ích trong các trường hợp như phân tích nội dung, nhận dạng hình ảnh hoặc trực quan hóa dữ liệu. Trích xuất hình ảnh thủ công từ các tài liệu Word lớn có thể tốn thời gian. Do đó, tự động hóa quá trình trích xuất hình ảnh có thể giúp bạn tiết kiệm thời gian và công sức. Trong bài viết này, chúng tôi sẽ trình bày cách trích xuất hình ảnh từ tài liệu Word bằng lập trình trong Java.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Java REST API để trích xuất hình ảnh từ tài liệu Word và cài đặt SDK

GroupDocs.Parser Cloud SDK for Java là một thư viện Java mạnh mẽ cung cấp một cách đơn giản và hiệu quả để phân tích cú pháp và trích xuất dữ liệu từ nhiều định dạng tài liệu khác nhau, bao gồm cả tài liệu Word. Nó cung cấp nhiều tính năng để phân tích cú pháp tài liệu, cho phép các nhà phát triển trích xuất hình ảnh, văn bản, siêu dữ liệu, v.v. GroupDocs.Parser cũng cung cấp SDK C#.NET, Java, PHP, Ruby và Python dưới dạng các thành viên trong họ trình phân tích cú pháp tài liệu cho API đám mây.

Để bắt đầu, bạn cần đưa GroupDocs.Parser Cloud SDK vào dự án Java của mình. Bạn có thể tải xuống tệp JAR của API hoặc cài đặt nó bằng Maven bằng cách thêm kho lưu trữ và phần phụ thuộc sau vào tệp pom.xml của dự án:

Kho lưu trữ Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Phụ thuộc Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-parser-cloud</artifactId>
    <version>23.3</version>
    <scope>compile</scope>
</dependency>

Tiếp theo, bạn cần đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Java:

# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Cách trích xuất tất cả hình ảnh từ tài liệu Word trong Java bằng API REST

Để trích xuất hình ảnh từ tài liệu Word trong Java bằng GroupDocs.Parser Cloud SDK, hãy làm theo các bước sau và một đoạn mã ví dụ:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tài liệu Word đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Bây giờ, hãy tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và chuyển tham số ImagesRequest.

Mẫu mã sau đây cho biết cách trích xuất tất cả hình ảnh từ tài liệu Word trực tuyến bằng Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Cách trích xuất hình ảnh từ tài liệu Word trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trích xuất hình ảnh cụ thể từ tệp Word trong Java bằng cách sử dụng số trang

Trong phần này, chúng tôi sẽ viết các bước và đoạn mã ví dụ để trích xuất các hình ảnh cụ thể từ tài liệu Word theo chương trình trong Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp ParseApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Tiếp theo, đặt đường dẫn đến tệp Word làm đầu vào.
  • Sau đó, tạo một thể hiện của lớp ImagesOptions().
  • Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
  • Sau đó, cung cấp các giá trị setStartPageNumber và setCountPagesToExtract.
  • Bây giờ, hãy tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và chuyển tham số ImagesRequest.

Mẫu mã sau đây cho biết cách trích xuất các hình ảnh cụ thể từ tệp Word theo phạm vi trang trong Java bằng API REST:

package com.groupdocsdev.classes;

import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;

// Trích xuất hình ảnh từ tệp Word trực tuyến theo phạm vi trang trong Java.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của Parse API
		ParseApi apiInstance = new ParseApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ImagesOptions options = new ImagesOptions();
			options.setFileInfo(fileInfo);
			options.setStartPageNumber(1);
			options.setCountPagesToExtract(2);
			ImagesRequest request = new ImagesRequest(options);
			ImagesResult response = apiInstance.images(request);

			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
				
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trình trích xuất hình ảnh trực tuyến miễn phí

Cách tốt nhất để trích xuất hình ảnh từ Word trực tuyến miễn phí là gì? Vui lòng thử trình phân tích cú pháp tài liệu Word trực tuyến để trích xuất hình ảnh từ Word. Công cụ Trình phân tích cú pháp Word này được phát triển bằng cách sử dụng thư viện trình phân tích cú pháp Java đã đề cập ở trên.

Phần kết luận

Tóm lại, GroupDocs.Parser Cloud SDK là một giải pháp tuyệt vời để trích xuất hình ảnh từ tài liệu Word, tiết kiệm thời gian và công sức trong khi vẫn đảm bảo kết quả chính xác. Sau đây là những gì bạn đã học được từ bài viết này:

  • cách trích xuất tất cả hình ảnh từ Word DOCX theo lập trình trong Java bằng API REST;
  • cách trích xuất các hình ảnh cụ thể từ tài liệu Word trong Java bằng API REST;
  • và công cụ trích xuất hình ảnh trực tuyến để trích xuất hình ảnh từ tài liệu Word.

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github.

Cuối cùng, chúng tôi tiếp tục viết các bài blog mới trên các định dạng tệp khác nhau và phân tích cú pháp chúng bằng API REST. Vì vậy, vui lòng liên hệ để cập nhật thông tin mới nhất.

Đặt một câu hỏi

Trong trường hợp bạn có bất kỳ thắc mắc nào về cách trích xuất hình ảnh từ tài liệu, vui lòng liên hệ với chúng tôi qua diễn đàn của chúng tôi.

câu hỏi thường gặp

Làm cách nào để phân tích cú pháp tài liệu Word trong Java?

Để trích xuất hình ảnh hoặc văn bản, trước tiên bạn cần tải và phân tích cú pháp tài liệu Word bằng GroupDocs.Parser Cloud SDK. Quá trình này bao gồm chỉ định đường dẫn tệp và gọi phương thức Parse để phân tích cú pháp tài liệu.

GroupDocs.Parser Cloud SDK có thể trích xuất hình ảnh từ các định dạng tài liệu khác không?

Có, GroupDocs.Parser Cloud SDK for Java hỗ trợ trích xuất hình ảnh từ nhiều định dạng tài liệu khác nhau, bao gồm Word, PDF, Excel, PowerPoint, v.v.

GroupDocs.Parser Cloud SDK có thể trích xuất nhiều hình ảnh từ một tài liệu Word không?

Có, SDK có thể trích xuất nhiều hình ảnh từ một tài liệu Word duy nhất, cung cấp cho bạn tất cả các hình ảnh có trong tài liệu.

GroupDocs.Parser Cloud SDK có bảo toàn chất lượng hình ảnh gốc trong quá trình trích xuất không?

Có, GroupDocs.Parser Cloud SDK for Java giữ nguyên chất lượng hình ảnh gốc trong khi trích xuất hình ảnh từ tài liệu Word.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: