
Phân tích tài liệu là một nhiệm vụ quan trọng trong nhiều ngành công nghiệp, nơi yêu cầu trích xuất dữ liệu từ nhiều định dạng tài liệu khác nhau. Khi làm việc với Word tài liệu, việc trích xuất hình ảnh có thể đặc biệt hữu ích trong các trường hợp như phân tích nội dung, nhận dạng hình ảnh hoặc trực quan hóa dữ liệu. Việc trích xuất hình ảnh thủ công từ các tài liệu Word lớn có thể tốn thời gian. Do đó, tự động hóa quy trình trích xuất hình ảnh có thể tiết kiệm thời gian và nỗ lực cho bạn. Trong bài viết này, chúng tôi sẽ minh họa cách trích xuất hình ảnh từ các tài liệu Word một cách lập trình trong Java.
Các chủ đề sau đây sẽ được đề cập trong bài viết này:
- Java REST API để trích xuất hình ảnh từ tài liệu Word và cài đặt SDK
- Cách trích xuất tất cả hình ảnh từ tài liệu Word trong Java sử dụng REST API
- Trích xuất hình ảnh cụ thể từ tệp Word trong Java sử dụng số trang
Java REST API để Trích xuất Hình ảnh từ Tài liệu Word và Cài đặt SDK
GroupDocs.Parser Cloud SDK for Java là một thư viện Java mạnh mẽ cung cấp một cách đơn giản và hiệu quả để phân tích và trích xuất dữ liệu từ các định dạng tài liệu, bao gồm cả tài liệu Word. Nó cung cấp một loạt các tính năng cho việc phân tích tài liệu, cho phép các nhà phát triển trích xuất hình ảnh, văn bản, siêu dữ liệu, và nhiều hơn nữa. GroupDocs.Parser cũng cung cấp các SDK C#.NET, Java, PHP, Ruby và Python như là các thành viên trong gia đình trình phân tích tài liệu của các API Cloud.
Để bắt đầu, bạn cần bao gồm GroupDocs.Parser Cloud SDK trong dự án Java của bạn. Bạn có thể download tệp JAR của API hoặc cài đặt nó bằng cách sử dụng Maven bằng cách thêm kho lưu trữ và phụ thuộc sau vào tệp pom.xml của dự án của bạn:
Kho lưu trữ Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Maven Dependency:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Tiếp theo, bạn cần sign up cho một tài khoản dùng thử miễn phí hoặc purchase a subscription plan trên trang web GroupDocs và get your API key. Một khi bạn đã có Client Id và Client Secret, hãy thêm đoạn mã dưới đây vào một ứng dụng dựa trên Java:
# Lấy clientid và clientsecret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Cách trích xuất tất cả hình ảnh từ tài liệu Word trong Java sử dụng REST API
Để trích xuất hình ảnh từ tài liệu Word trong Java bằng cách sử dụng GroupDocs.Parser Cloud SDK, hãy làm theo các bước sau và đoạn mã ví dụ:
- Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
- Thứ hai, tạo một thể hiện của lớp ParseApi.
- Thứ ba, tạo một thể hiện của lớp FileInfo.
- Tiếp theo, đặt đường dẫn đến tài liệu Word đầu vào.
- Sau đó, tạo một thể hiện của lớp ImagesOptions().
- Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
- Bây giờ, tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
- Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và truyền tham số ImagesRequest.
Mẫu mã dưới đây cho thấy cách trích xuất tất cả hình ảnh từ tài liệu Word trực tuyến bằng Java sử dụng REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Cách lấy hình ảnh từ tài liệu Word bằng Java.
public class App {
public static void main(String[] args) {
// Tạo một phiên bản của API Parse
ParseApi apiInstance = new ParseApi(configuration);
try {
// Chuẩn bị các cài đặt
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Lấy đường dẫn tệp đầu ra
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Trích xuất hình ảnh cụ thể từ tệp Word trong Java bằng cách sử dụng số trang
Trong phần này, chúng tôi sẽ viết các bước và một đoạn mã ví dụ để trích xuất các hình ảnh cụ thể từ tài liệu Word một cách lập trình trong Java:
- Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
- Thứ hai, tạo một thể hiện của lớp ParseApi.
- Thứ ba, tạo một trường hợp của lớp FileInfo.
- Tiếp theo, đặt đường dẫn đến tệp Word làm đầu vào.
- Sau đó, tạo một thể hiện của lớp ImagesOptions().
- Tiếp theo, gán fileInfo cho tùy chọn hình ảnh setFileInfo.
- Sau đó, cung cấp giá trị cho setStartPageNumber và setCountPagesToExtract.
- Bây giờ, tạo một thể hiện của lớp ImagesRequest() và truyền tham số ImagesOptions.
- Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.images() và truyền tham số ImagesRequest.
Mẫu mã dưới đây cho thấy cách trích xuất các hình ảnh cụ thể từ một tệp Word theo phạm vi trang trong Java bằng cách sử dụng REST API:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.ImagesOptions;
import com.groupdocs.cloud.parser.model.ImagesResult;
import com.groupdocs.cloud.parser.model.requests.ImagesRequest;
// Extract images from a Word file online by page range in Java.
public class App {
public static void main(String[] args) {
// Tạo một phiên bản của Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Chuẩn bị cài đặt
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.docx");
ImagesOptions options = new ImagesOptions();
options.setFileInfo(fileInfo);
options.setStartPageNumber(1);
options.setCountPagesToExtract(2);
ImagesRequest request = new ImagesRequest(options);
ImagesResult response = apiInstance.images(request);
// Lấy đường dẫn tệp đầu ra
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Trình trích xuất hình ảnh miễn phí trực tuyến
Cách tốt nhất để trích xuất hình ảnh từ Word trực tuyến miễn phí là gì? Vui lòng thử một online Word document parser để trích xuất hình ảnh từ Word. Công cụ Word Parser này được phát triển bằng thư viện parser Java đã đề cập ở trên.
Kết luận
Cuối cùng, GroupDocs.Parser Cloud SDK là một giải pháp tuyệt vời để trích xuất hình ảnh từ tài liệu Word, tiết kiệm thời gian và công sức trong khi đảm bảo kết quả chính xác. Dưới đây là những gì bạn đã học được từ bài viết này:
- how to extract all images from Word DOCX programmatically in Java using REST API;
- how to extract specific images from Word documents in Java using REST API;
- và công cụ trích xuất hình ảnh trực tuyến để trích xuất hình ảnh từ tài liệu Word.
Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API thông qua documentation. Chúng tôi cũng cung cấp một phần API Reference cho phép bạn hình dung và tương tác với các API của chúng tôi trực tiếp qua trình duyệt. Mã nguồn đầy đủ của Java SDK có sẵn miễn phí trên Github.
Cuối cùng, chúng tôi tiếp tục viết các bài blog mới về các định dạng tệp khác nhau và phân tích chúng bằng cách sử dụng REST API. Vì vậy, vui lòng liên hệ để nhận thông tin cập nhật mới nhất.
Hỏi một câu hỏi
Trong trường hợp bạn có bất kỳ thắc mắc nào về cách trích xuất hình ảnh từ tài liệu, xin vui lòng liên hệ với chúng tôi qua forum.
Các câu hỏi thường gặp
How do I parse Word documents in Java?
Để trích xuất hình ảnh hoặc văn bản, bạn trước tiên cần tải và phân tích tài liệu Word bằng cách sử dụng GroupDocs.Parser Cloud SDK. Quá trình này bao gồm việc chỉ định đường dẫn tệp và gọi phương thức Parse để phân tích tài liệu.
GroupDocs.Parser Cloud SDK có thể trích xuất hình ảnh từ các định dạng tài liệu khác không?
Có, GroupDocs.Parser Cloud SDK for Java hỗ trợ việc trích xuất hình ảnh từ nhiều định dạng tài liệu khác nhau, bao gồm Word, PDF, Excel, PowerPoint và nhiều hơn nữa.
Nhóm GroupDocs.Parser Cloud SDK có thể trích xuất nhiều hình ảnh từ một tài liệu Word duy nhất không?
Vâng, SDK có thể trích xuất nhiều hình ảnh từ một tài liệu Word duy nhất, cung cấp cho bạn tất cả hình ảnh có trong tài liệu.
Does the GroupDocs.Parser Cloud SDK preserve the original image quality during the extraction process?
Có, GroupDocs.Parser Cloud SDK for Java giữ nguyên chất lượng hình ảnh gốc trong khi trích xuất hình ảnh từ tài liệu Word.
Xem Thêm
Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: