Bạn có thể cần trích xuất nhiều trang từ PDF cùng một lúc theo chương trình. Bằng cách tách các trang PDF, bạn có thể dễ dàng xuất và lưu các trang cụ thể của tài liệu PDF để chia sẻ với các bên liên quan. Là nhà phát triển Node.js, bạn có thể trích xuất nhiều trang từ tài liệu PDF trên đám mây. Trong bài viết này, chúng tôi sẽ trình bày cách trích xuất các trang từ tệp PDF bằng Rest API trong Node.js.
Các chủ đề sau sẽ được đề cập trong bài viết này để lấy các trang ra khỏi PDF:
- API REST của trình trích xuất PDF và SDK Node.js
- Trích xuất các trang PDF theo số trang chính xác bằng API REST trong Node.js
- Trích xuất các trang từ PDF theo phạm vi trang bằng API REST trong Node.js
PDF Extractor REST API và Node.js SDK
Để trích xuất các trang từ PDF adobe acrobat, tôi sẽ sử dụng Node.js SDK của GroupDocs.Merger Cloud API. Đây là thư viện tải xuống miễn phí trình trích xuất trang PDF trực tuyến. Nó cho phép bạn tách, kết hợp, trích xuất, xóa và sắp xếp lại một trang hoặc một tập hợp các trang từ các định dạng tài liệu được hỗ trợ của Word, Excel, PowerPoint, Bản vẽ Visio, PDF và HTML.
Bạn có thể cài đặt đám mây GroupDocs.Merger để trích xuất các trang PDF từ tệp PDF trong ứng dụng Node.js của mình bằng cách sử dụng lệnh sau trong bảng điều khiển:
npm install groupdocs-merger-cloud
Vui lòng lấy Client ID và Secret của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:
# Nhập SDK Node.js trong ứng dụng nút của bạn từ http://api.groupdocs.cloud
global.groupdocs_merger_cloud = require("groupdocs-merger-cloud");
global.fs = require("fs");
// lấy clientId và clientSecret từ https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_merger_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";
Trích xuất các trang PDF theo số trang chính xác bằng API REST trong Node.js
Bạn có thể xuất một trang từ PDF hoặc xuất các trang cụ thể từ tệp PDF theo chương trình trên đám mây bằng cách thực hiện theo các bước đơn giản được đề cập bên dưới:
- Tải lên tệp PDF lên Đám mây
- Trích xuất Các trang PDF sử dụng API REST trong Node.js
- Tải xuống các tệp đã tách
Tải lên tệp PDF
Bạn có thể bắt đầu bằng cách nhập tệp PDF vào đám mây bằng ví dụ mã được cung cấp bên dưới:
// mở tệp trong IOStream từ ổ đĩa hệ thống của bạn.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\input-sample-file.pdf';
// Đọc tài liệu
fs.readFile(resourcesFolder, (err, fileStream) => {
// xây dựng FileApi
var fileApi = groupdocs_merger_cloud.FileApi.fromConfig(config);
// tạo yêu cầu tệp tải lên
var request = new groupdocs_merger_cloud.UploadFileRequest("input-sample-file.pdf", fileStream, myStorage);
// cập nhật dử liệu
fileApi.uploadFile(request)
.then(function (response) {
console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
});
Tệp PDF sẽ có sẵn khi tệp được tải lên trong phần tệp của trang tổng quan của bạn trên đám mây.
Trích xuất các trang PDF bằng API REST trong Node.js
Các bước dưới đây sẽ hướng dẫn bạn cách trích xuất các trang từ tệp PDF theo chương trình:
- Đầu tiên, tạo một phiên bản của PagesApi.
- Tạo một phiên bản của ExtractOptions.
- Tạo một phiên bản của FileInfo.
- Sau đó, đặt đường dẫn đến tệp PDF đầu vào.
- Tiếp theo, đặt đường dẫn đến tệp PDF được giải nén.
- Đặt số trang cụ thể trong một mảng được phân tách bằng dấu phẩy để trích xuất tệp PDF.
- Tạo ExtractRequest với ExtractOptions.
- Cuối cùng, gọi phương thức pagesApi.extract() với ExtractRequest để lấy kết quả.
Đoạn mã sau cho biết cách trích xuất các trang PDF thành các tệp riêng biệt bằng API REST trong Node.js:
// Cách trích xuất các trang PDF theo số trang chính xác bằng API REST trong Node.js
const extractpdfpages = async() => {
// khởi tạo api
global.pagesApi = groupdocs_merger_cloud.PagesApi.fromKeys(clientId, clientSecret);
// xác định các tùy chọn trích xuất
let options = new groupdocs_merger_cloud.ExtractOptions();
options.fileInfo = new groupdocs_merger_cloud.FileInfo();
options.fileInfo.filePath = "nodejs-testing/input-sample-file.pdf";
options.outputPath = "nodejs-testing/output-sample-file.pdf";
options.pages = [2, 4, 7];
try {
// tạo yêu cầu trích xuất
let extractRequest = new groupdocs_merger_cloud.ExtractRequest(options);
// trích xuất các trang từ tài liệu pdf
let result = await pagesApi.extract(extractRequest);
}
catch (err) {
throw err;
}
}
extractpdfpages()
.then(() => {
console.log("Successfully extract PDF pages: ");
})
.catch((err) => {
console.log("Error occurred while extracting pages from PDF file:", err);
})
Tải xuống các tệp được giải nén
Mẫu mã trên sẽ lưu các tệp được phân tách trên đám mây. Bạn có thể tải chúng xuống bằng cách sử dụng mẫu mã sau:
// xây dựng FileApi để tải xuống tệp đã hợp nhất
var fileApi = groupdocs_merger_cloud.FileApi.fromConfig(config);
// tạo yêu cầu tệp donwload
let request = new groupdocs_merger_cloud.DownloadFileRequest("nodejs-testing/output-sample-file.pdf", myStorage);
// tải xuống tệp và loại phản hồi Luồng
fileApi.downloadFile(request)
.then(function (response) {
// lưu tập tin trong thư mục hệ thống của bạn
fs.writeFile("H:\\groupdocs-cloud-data\\output-sample-file.pdf", response, "binary", function (err) { });
console.log("Expected response type is Stream: " + response.length);
})
.catch(function (error) {
console.log("Error: " + error.message);
});
Trích xuất các trang từ PDF theo phạm vi trang bằng API REST trong Node.js
Bạn có thể trích xuất và lưu các trang từ PDF một cách riêng biệt bằng cách cung cấp một loạt số trang theo chương trình bằng cách thực hiện theo các bước dưới đây:
- Đầu tiên, tạo một phiên bản của PagesApi.
- Tạo một phiên bản của ExtractOptions.
- Tạo một phiên bản của FileInfo.
- Sau đó, đặt đường dẫn đến tệp PDF đầu vào.
- Tiếp theo, đặt đường dẫn đến tệp PDF được giải nén.
- Đặt giá trị số trang bắt đầu và số trang kết thúc.
- Sau đó, đặt rangeMode là EvenPages hoặc OddPages
- Tạo ExtractRequest với ExtractOptions.
- Cuối cùng, gọi phương thức pagesApi.extract() với ExtractRequest để lấy kết quả.
Đoạn mã sau cho biết cách trích xuất các trang từ PDF trực tuyến bằng phạm vi trang và chế độ trang trong Node.js:
// Cách trích xuất các trang từ PDF theo phạm vi trang bằng API REST trong Node.js
const extractpages = async() => {
// khởi tạo api
global.pagesApi = groupdocs_merger_cloud.PagesApi.fromKeys(clientId, clientSecret);
// xác định các tùy chọn trích xuất
let options = new groupdocs_merger_cloud.ExtractOptions();
options.fileInfo = new groupdocs_merger_cloud.FileInfo();
options.fileInfo.filePath = "nodejs-testing/input-sample-file.pdf";
options.outputPath = "nodejs-testing/output-sample-file.pdf";
options.startPageNumber = 1;
options.endPageNumber = 10;
options.rangeMode = groupdocs_merger_cloud.ExtractOptions.RangeModeEnum.EvenPages;
try {
// tạo yêu cầu trích xuất
let extractRequest = new groupdocs_merger_cloud.ExtractRequest(options);
// trích xuất các trang tệp PDF
let result = await pagesApi.extract(extractRequest);
}
catch (err) {
throw err;
}
}
extractpages()
.then(() => {
console.log("Successfully extratcing pages of PDF file.");
})
.catch((err) => {
console.log("Error occurred while extracting pages from PDF file.", err);
})
Tương tự, bạn có thể trích xuất các trang lẻ từ tài liệu PDF.
Thử trực tuyến
Làm cách nào để trích xuất các trang từ tệp PDF trực tuyến? Vui lòng thử công cụ trích xuất PDF trực tuyến miễn phí sau đây để trích xuất các trang từ PDF trực tuyến miễn phí. Công cụ trực tuyến miễn phí trình trích xuất trang PDF này được phát triển bằng API trên.
Phần kết luận
Chúng tôi đang kết thúc bài viết blog này ở đây. Trong bài viết này, bạn đã học được:
- cách trích xuất một số trang nhất định từ PDF hoặc trích xuất một trang từ PDF trực tuyến bằng API REST;
- cách trích xuất các trang từ tài liệu PDF bằng bộ lọc chế độ phạm vi và phạm vi trang;
- tải tệp PDF lên đám mây để xuất các trang đã chọn từ PDF trực tuyến;
- tải xuống và lưu một số trang PDF nhất định từ đám mây;
- cách trích xuất các trang từ PDF miễn phí;
Bây giờ, bạn đã biết cách trích xuất một trang từ tài liệu PDF hoặc cách lưu một số trang nhất định của tệp PDF. API cũng cho phép bạn sắp xếp lại hoặc thay thế các trang tài liệu, thay đổi hướng trang, quản lý mật khẩu tài liệu và thực hiện các thao tác khác một cách dễ dàng đối với mọi định dạng tệp được hỗ trợ. Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Merge Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt.
Ngoài ra, chúng tôi khuyên bạn nên tham khảo Hướng dẫn bắt đầu. của chúng tôi
Ngoài ra, groupdocs.cloud thường xuyên viết bài về các chủ đề mới. Vì vậy, hãy giữ liên lạc cho các bản cập nhật mới nhất.
Đặt một câu hỏi
Bạn có thể đặt câu hỏi về cách trích xuất tệp PDF để xuất các trang đã chọn từ PDF qua Diễn đàn hỗ trợ miễn phí của chúng tôi
câu hỏi thường gặp
Làm cách nào để trích xuất nhiều trang từ PDF thành một tệp?
Cài đặt JS library để tách các tệp PDF thành nhiều trang trực tuyến theo chương trình. Bạn có thể truy cập tài liệu để biết chi tiết đầy đủ về API.
Mất bao lâu để trích xuất các trang cụ thể từ PDF?
Thư viện JavaScript HTML sang PDF hoạt động rất nhanh và bạn có thể trích xuất các trang từ tệp PDF được bảo vệ một cách dễ dàng trong vài giây.
Xem thêm
Để đọc và thông tin tốt nhất, vui lòng truy cập các bài viết sau:
- Nối các tệp PDF thành Một trực tuyến bằng Node.js
- Trích xuất các trang từ tài liệu Word bằng Python
- Kết hợp nhiều bản trình bày PowerPoint thành một
- Hợp nhất các tệp PDF bằng API REST
- Cách kết hợp các tệp PowerPoint PPT/PPTX trong Python
- Kết hợp nhiều tài liệu Word bằng Python
- Tách tài liệu Word thành nhiều tệp bằng Node.js
- Cách tách các slide PowerPoint PPT hoặc PPTX bằng Python
- Cách trích xuất các trang từ tài liệu Word bằng Python
- Hợp nhất các tệp PowerPoint PPT/PPTX trực tuyến bằng API REST trong Ruby
- Cách kết hợp nhiều tài liệu Word bằng Python
- Kết hợp và hợp nhất các tệp PowerPoint PPT/PPTX trong Python
- Trích xuất hình ảnh từ tệp PDF bằng Node.js
- Cách chia tài liệu Word thành các tệp riêng biệt bằng Node.js