Cách trích xuất trang tài liệu Word trực tuyến bằng Java

Trích xuất trang tài liệu - Trích xuất trang từ tệp Word trong Java.

Bạn đang gặp khó khăn trong việc trích xuất các trang cụ thể từ tài liệu Word trong Java? Khi làm việc với tài liệu Word lớn, việc trích xuất các trang cụ thể từ một tài liệu Word lớn có thể là một nhiệm vụ khó khăn. May mắn thay, GroupDocs.Merger Cloud SDK dành cho Java giúp bạn thực hiện quy trình này dễ dàng hơn. Trong bài viết này, chúng ta sẽ khám phá cách trích xuất các trang từ tệp Word trong Java bằng cách sử dụng GroupDocs.Merger Cloud SDK cho Java.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

Java REST API để trích xuất các trang tài liệu Word - Cài đặt SDK

GroupDocs.Merger Cloud SDK for Java là một API mạnh mẽ cho phép các nhà phát triển hợp nhất, tách, sắp xếp lại, trích xuất và thao tác với các tài liệu cũng như tệp trong đám mây. Nó cung cấp một cách dễ dàng, đáng tin cậy và nhanh chóng để quản lý các trang tài liệu và nội dung của chúng. Nó tương thích với hầu hết định dạng tệp phổ biến như PDF, Word, Excel, HTML, PowerPoint, v.v. SDK mạnh mẽ này rất dễ sử dụng và có thể được tích hợp vào ứng dụng dựa trên Java để tự động hóa quy trình thao tác tệp.

Bạn có thể tải xuống tệp JAR của API hoặc cài đặt nó bằng Maven bằng cách thêm kho lưu trữ và phần phụ thuộc sau vào tệp pom.xml của dự án:

Kho lưu trữ Maven:

<repository>
    <id>groupdocs-artifact-repository</id>
    <name>GroupDocs Artifact Repository</name>
    <url>https://repository.groupdocs.cloud/repo</url>
</repository>

Phụ thuộc Maven:

<dependency>
    <groupId>com.groupdocs</groupId>
    <artifactId>groupdocs-merger-cloud</artifactId>
    <version>23.2</version>
    <scope>compile</scope>
</dependency>

Bây giờ, bạn phải đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs để lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Java:

# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.

String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);

Trích xuất các trang từ Tài liệu Word trong Java bằng cách sử dụng Số trang chính xác

Bây giờ chúng ta đã thiết lập môi trường của mình, hãy xem cách sử dụng GroupDocs.Merger Cloud SDK dành cho Java để trích xuất các trang từ tài liệu Word. Dưới đây là các bước:

Tải tệp lên

Đầu tiên, tải tài liệu Word lên đám mây bằng ví dụ mã được cung cấp bên dưới:

package com.groupdocsdev.classes;

import java.io.File;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// Tải tệp lên Cloud Storage bằng Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {
			File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.docx");
			UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.docx", fileStream, MyStorage);
			FilesUploadResult response = apiInstance.uploadFile(request);
			System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Do đó, tệp Word đã tải lên sẽ có sẵn trong phần tệp trên trang tổng quan của bạn trên đám mây.

Trích xuất các trang từ Tài liệu Word trong Java

Trong phần này, chúng tôi sẽ đề cập đến các bước và đoạn mã ví dụ về cách trích xuất các trang từ tài liệu Word bằng GroupDocs.Merger Cloud SDK dành cho Java:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp PagesApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Sau đó, đặt đường dẫn tệp đầu vào nguồn.
  • Bây giờ, hãy tạo một thể hiện của lớp ExtractOptions().
  • Sau đó, xác định các tùy chọn trích xuất bộ sưu tập setFileInfo, setOutputPath và setPages ở định dạng mảng.
  • Bây giờ, hãy tạo một thể hiện của lớp ExtractRequest() và truyền tham số ExtractOptions.
  • Cuối cùng, giải nén các trang DOCX bằng cách gọi phương thức extract() của PagesApi và chuyển tham số ExtractRequest.

Đoạn mã sau cho biết cách trích xuất các trang tài liệu Word thành một tệp mới trong Java bằng API REST:

package com.groupdocsdev.classes;

import java.util.Arrays;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// Trích xuất các trang từ tài liệu Word trong Java bằng cách sử dụng số trang chính xác.
public class App {

	public static void main(String[] args) {

		// Tạo một phiên bản của API Trang.			
		PagesApi apiInstance = new PagesApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();			
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ExtractOptions options = new ExtractOptions();
			options.setFileInfo(fileInfo);
			options.setOutputPath("java-testing/output-sample-file.docx");
			options.setPages(Arrays.asList(3, 5, 7));

			ExtractRequest request = new ExtractRequest(options);

			DocumentResult response = apiInstance.extract(request);
			
			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
			
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Tải xuống tệp

Mẫu mã trên sẽ lưu các trang đã trích xuất của tài liệu Word trên đám mây. Bạn có thể tải xuống bằng mẫu mã sau:

package com.groupdocsdev.classes;

import java.io.File;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// Tải xuống tệp từ Bộ nhớ đám mây bằng Java
public class App {

	public static void main(String[] args) {

		FileApi apiInstance = new FileApi(configuration);
		try {

			DownloadFileRequest request = new DownloadFileRequest("java-testing\\multipage-documents\\output-sample-file.docx", MyStorage, null);
			File response = apiInstance.downloadFile(request);
			System.out.println("Expected response type is downloadFile: " + response.length());
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
	}
}

Trích xuất các trang từ tệp Word trong Java bằng cách sử dụng Phạm vi số trang

Trong phần này, chúng tôi sẽ cung cấp các bước và đoạn mã ví dụ về cách trích xuất các trang cụ thể từ tài liệu Word theo phạm vi số trang chính xác:

  • Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
  • Thứ hai, tạo một thể hiện của lớp PagesApi.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Sau đó, đặt đường dẫn tệp đầu vào nguồn.
  • Bây giờ, hãy tạo một thể hiện của lớp ExtractOptions().
  • Sau đó, xác định các tùy chọn giải nén setFileInfo, setOutputPath, setStartPageNumber và setEndPageNumber.
  • Tiếp theo, đặt tùy chọn trang setRangeMode thành EVENPAGES.
  • Bây giờ, hãy tạo một thể hiện của lớp ExtractRequest() và truyền tham số ExtractOptions.
  • Cuối cùng, trích xuất các trang bằng cách gọi phương thức extract() của PagesApi và chuyển tham số ExtractRequest.

Đoạn mã sau cho biết cách trích xuất các trang tệp Word bằng cách áp dụng phạm vi và chế độ trang bằng Java:

package com.groupdocsdev.classes;

import java.util.Arrays;
import com.groupdocs.cloud.merger.client.*;
import com.groupdocs.cloud.merger.model.*;
import com.groupdocs.cloud.merger.model.requests.*;
import com.groupdocs.cloud.merger.api.*;
import com.groupdocs.cloud.merger.client.ApiException;

// Trích xuất các trang từ tệp Word trong Java bằng cách sử dụng phạm vi số trang.
public class App {

	public static void main(String[] args) {
		
		// Tạo một phiên bản của API Trang.
		PagesApi apiInstance = new PagesApi(configuration);

		try {

			// Chuẩn bị cài đặt
			FileInfo fileInfo = new FileInfo();			
			fileInfo.setFilePath("java-testing/input-sample-file.docx");

			ExtractOptions options = new ExtractOptions();
			options.setFileInfo(fileInfo);
			options.setOutputPath("java-testing/output-sample-file.docx");
			options.setStartPageNumber(1);
			options.setEndPageNumber(10);
			options.setRangeMode(PageOptions.RangeModeEnum.EVENPAGES);

			ExtractRequest request = new ExtractRequest(options);

			DocumentResult response = apiInstance.extract(request);
			
			// Nhận đường dẫn tệp đầu ra
			System.out.println("Output file path: " + response.getPath());
			
		} catch (ApiException e) {
			System.err.println("Exception while calling FileApi:");
			e.printStackTrace();
		}
		
	}
}

Trình trích xuất tài liệu Word trực tuyến miễn phí

Làm cách nào để trích xuất các trang tài liệu Word miễn phí? Vui lòng dùng thử trình trích xuất trang Word trực tuyến để trích xuất miễn phí các trang cụ thể từ tài liệu Word. Công cụ trích xuất trang Word trực tuyến này được phát triển bằng API Groupdocs.Merger Cloud đã đề cập ở trên.

Kết luận

Tóm lại, GroupDocs.Merger Cloud SDK dành cho Java là một lựa chọn tuyệt vời có thể giúp các nhà phát triển trích xuất các trang từ tài liệu Word trực tuyến. Sau đây là những gì bạn đã học được trong bài viết này:

  • cách trích xuất các trang từ tài liệu Word theo số trang bằng Java;
  • lập trình tải lên và tải xuống tài liệu Word trên đám mây;
  • trích xuất các trang Word DOCX trong Java bằng cách sử dụng phạm vi số trang chính xác;
  • và trích xuất các trang từ Word miễn phí bằng công cụ trích xuất trang Word trực tuyến.

Ngoài ra, chúng tôi cũng cung cấp Phần tham chiếu API cho phép bạn hình dung và giao tiếp trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github. Vui lòng kiểm tra GroupDocs.Merger Cloud SDK dành cho Java Ví dụ tại đây.

Ngoài ra, chúng tôi khuyên bạn nên làm theo Hướng dẫn bắt đầu của chúng tôi để biết các bước chi tiết và cách sử dụng API.

Cuối cùng, chúng tôi tiếp tục viết các bài đăng blog mới về các hoạt động tài liệu khác nhau bằng API REST. Vì vậy, xin vui lòng liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Nếu bạn có bất kỳ câu hỏi nào về cách trích xuất các trang tài liệu, vui lòng hỏi chúng tôi trên Diễn đàn hỗ trợ miễn phí.

câu hỏi thường gặp

Làm cách nào để trích xuất các trang từ tài liệu Word trực tuyến bằng Java?

Bạn có thể trích xuất các trang từ tệp Word bằng cách sử dụng GroupDocs.Merger Cloud SDK cho Java và hợp lý hóa quy trình làm việc của bạn.

Tôi có thể trích xuất các trang cụ thể bằng API REST không?

Có, bạn có thể chỉ định số trang ở định dạng mảng để trích xuất các trang cụ thể bằng cách sử dụng GroupDocs.Merger Cloud SDK for Java.

GroupDocs.Merger Cloud SDK cho Java hỗ trợ các định dạng tệp nào?

GroupDocs.Merger Cloud SDK dành cho Java hỗ trợ nhiều định dạng tệp, bao gồm Word, Excel, JPG, PowerPoint, PDF, HTML và nhiều định dạng khác.

Tôi có thể trích xuất nhiều trang từ một tệp Word bằng GroupDocs.Merger Cloud SDK cho Java không?

Có, bạn có thể trích xuất nhiều trang từ tài liệu Word bằng cách sử dụng GroupDocs.Merger Cloud SDK for Java bằng cách chỉ định phạm vi trang bạn muốn trích xuất.

Xem thêm

Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích: