Cách trích xuất các trang từ tệp PDF bằng API còn lại trong Node.js

Cách trích xuất các trang từ tệp PDF bằng API còn lại trong Node.js

Bạn có thể cần trích xuất nhiều trang từ PDF cùng một lúc theo chương trình. Bằng cách tách các trang PDF, bạn có thể dễ dàng xuất và lưu các trang cụ thể của tài liệu PDF để chia sẻ với các bên liên quan. Là nhà phát triển Node.js, bạn có thể trích xuất nhiều trang từ tài liệu PDF trên đám mây. Trong bài viết này, chúng tôi sẽ trình bày cách trích xuất các trang từ tệp PDF bằng Rest API trong Node.js.

Các chủ đề sau sẽ được đề cập trong bài viết này để lấy các trang ra khỏi PDF:

PDF Extractor REST API và Node.js SDK

Để trích xuất các trang từ PDF adobe acrobat, tôi sẽ sử dụng Node.js SDK của GroupDocs.Merger Cloud API. Đây là thư viện tải xuống miễn phí trình trích xuất trang PDF trực tuyến. Nó cho phép bạn tách, kết hợp, trích xuất, xóa và sắp xếp lại một trang hoặc một tập hợp các trang từ các định dạng tài liệu được hỗ trợ của Word, Excel, PowerPoint, Bản vẽ Visio, PDFHTML.

Bạn có thể cài đặt đám mây GroupDocs.Merger để trích xuất các trang PDF từ tệp PDF trong ứng dụng Node.js của mình bằng cách sử dụng lệnh sau trong bảng điều khiển:

npm install groupdocs-merger-cloud

Vui lòng lấy Client ID và Secret của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập. Khi bạn có ID và bí mật của mình, hãy thêm mã như hình bên dưới:

# Nhập SDK Node.js trong ứng dụng nút của bạn từ http://api.groupdocs.cloud
global.groupdocs_merger_cloud = require("groupdocs-merger-cloud");
global.fs = require("fs");

// lấy clientId và clientSecret từ https://dashboard.groupdocs.cloud (yêu cầu đăng ký miễn phí).
global.clientId = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
global.clientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
global.myStorage = "test-internal-storage";
const config = new groupdocs_merger_cloud.Configuration(clientId, clientSecret);
config.apiBaseUrl = "https://api.groupdocs.cloud";

Trích xuất các trang PDF theo số trang chính xác bằng API REST trong Node.js

Bạn có thể xuất một trang từ PDF hoặc xuất các trang cụ thể từ tệp PDF theo chương trình trên đám mây bằng cách thực hiện theo các bước đơn giản được đề cập bên dưới:

Tải lên tệp PDF

Bạn có thể bắt đầu bằng cách nhập tệp PDF vào đám mây bằng ví dụ mã được cung cấp bên dưới:

// mở tệp trong IOStream từ ổ đĩa hệ thống của bạn.
var resourcesFolder = 'H:\\groupdocs-cloud-data\\input-sample-file.pdf';
// Đọc tài liệu
fs.readFile(resourcesFolder, (err, fileStream) => {
  // xây dựng FileApi
  var fileApi = groupdocs_merger_cloud.FileApi.fromConfig(config);
  // tạo yêu cầu tệp tải lên
  var request = new groupdocs_merger_cloud.UploadFileRequest("input-sample-file.pdf", fileStream, myStorage);
  // cập nhật dử liệu
  fileApi.uploadFile(request)
    .then(function (response) {
      console.log("Expected response type is FilesUploadResult: " + response.uploaded.length);
    })
    .catch(function (error) {
      console.log("Error: " + error.message);
    });
});

Tệp PDF sẽ có sẵn khi tệp được tải lên trong phần tệp của trang tổng quan của bạn trên đám mây.

Trích xuất các trang PDF bằng API REST trong Node.js

Các bước dưới đây sẽ hướng dẫn bạn cách trích xuất các trang từ tệp PDF theo chương trình:

  • Đầu tiên, tạo một phiên bản của PagesApi.
  • Tạo một phiên bản của ExtractOptions.
  • Tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PDF đầu vào.
  • Tiếp theo, đặt đường dẫn đến tệp PDF được giải nén.
  • Đặt số trang cụ thể trong một mảng được phân tách bằng dấu phẩy để trích xuất tệp PDF.
  • Tạo ExtractRequest với ExtractOptions.
  • Cuối cùng, gọi phương thức pagesApi.extract() với ExtractRequest để lấy kết quả.

Đoạn mã sau cho biết cách trích xuất các trang PDF thành các tệp riêng biệt bằng API REST trong Node.js:

// Cách trích xuất các trang PDF theo số trang chính xác bằng API REST trong Node.js
const extractpdfpages = async() => {

  // khởi tạo api
  global.pagesApi = groupdocs_merger_cloud.PagesApi.fromKeys(clientId, clientSecret);

  // xác định các tùy chọn trích xuất
  let options = new groupdocs_merger_cloud.ExtractOptions();
  options.fileInfo = new groupdocs_merger_cloud.FileInfo();
  options.fileInfo.filePath = "nodejs-testing/input-sample-file.pdf"; 
  options.outputPath = "nodejs-testing/output-sample-file.pdf"; 
  options.pages = [2, 4, 7];
  
  try {
    // tạo yêu cầu trích xuất
    let extractRequest = new groupdocs_merger_cloud.ExtractRequest(options);
    // trích xuất các trang từ tài liệu pdf
    let result = await pagesApi.extract(extractRequest);
  }
  catch (err) {
    throw err;
  }
}

extractpdfpages()
.then(() => {
  console.log("Successfully extract PDF pages: ");
})
.catch((err) => {
  console.log("Error occurred while extracting pages from PDF file:", err);
})

Tải xuống các tệp được giải nén

Mẫu mã trên sẽ lưu các tệp được phân tách trên đám mây. Bạn có thể tải chúng xuống bằng cách sử dụng mẫu mã sau:

// xây dựng FileApi để tải xuống tệp đã hợp nhất
var fileApi = groupdocs_merger_cloud.FileApi.fromConfig(config);
// tạo yêu cầu tệp donwload
let request = new groupdocs_merger_cloud.DownloadFileRequest("nodejs-testing/output-sample-file.pdf", myStorage);
// tải xuống tệp và loại phản hồi Luồng
fileApi.downloadFile(request)
    .then(function (response) {
        // lưu tập tin trong thư mục hệ thống của bạn
        fs.writeFile("H:\\groupdocs-cloud-data\\output-sample-file.pdf", response, "binary", function (err) { });
        console.log("Expected response type is Stream: " + response.length);
    })
    .catch(function (error) {
        console.log("Error: " + error.message);
    });

Trích xuất các trang từ PDF theo phạm vi trang bằng API REST trong Node.js

Bạn có thể trích xuất và lưu các trang từ PDF một cách riêng biệt bằng cách cung cấp một loạt số trang theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Đầu tiên, tạo một phiên bản của PagesApi.
  • Tạo một phiên bản của ExtractOptions.
  • Tạo một phiên bản của FileInfo.
  • Sau đó, đặt đường dẫn đến tệp PDF đầu vào.
  • Tiếp theo, đặt đường dẫn đến tệp PDF được giải nén.
  • Đặt giá trị số trang bắt đầu và số trang kết thúc.
  • Sau đó, đặt rangeMode là EvenPages hoặc OddPages
  • Tạo ExtractRequest với ExtractOptions.
  • Cuối cùng, gọi phương thức pagesApi.extract() với ExtractRequest để lấy kết quả.

Đoạn mã sau cho biết cách trích xuất các trang từ PDF trực tuyến bằng phạm vi trang và chế độ trang trong Node.js:

// Cách trích xuất các trang từ PDF theo phạm vi trang bằng API REST trong Node.js
const extractpages = async() => {

  // khởi tạo api
  global.pagesApi = groupdocs_merger_cloud.PagesApi.fromKeys(clientId, clientSecret);

  // xác định các tùy chọn trích xuất
  let options = new groupdocs_merger_cloud.ExtractOptions();
  options.fileInfo = new groupdocs_merger_cloud.FileInfo();
  options.fileInfo.filePath = "nodejs-testing/input-sample-file.pdf"; 
  options.outputPath = "nodejs-testing/output-sample-file.pdf"; 
  options.startPageNumber = 1;
  options.endPageNumber = 10;
  options.rangeMode = groupdocs_merger_cloud.ExtractOptions.RangeModeEnum.EvenPages;
  
  try {
    // tạo yêu cầu trích xuất
    let extractRequest = new groupdocs_merger_cloud.ExtractRequest(options);
    // trích xuất các trang tệp PDF
    let result = await pagesApi.extract(extractRequest);
  } 
  catch (err) {
    throw err;
  }
}

extractpages()
.then(() => {
  console.log("Successfully extratcing pages of PDF file.");
})
.catch((err) => {
  console.log("Error occurred while extracting pages from PDF file.", err);
})

Tương tự, bạn có thể trích xuất các trang lẻ từ tài liệu PDF.

Thử trực tuyến

Làm cách nào để trích xuất các trang từ tệp PDF trực tuyến? Vui lòng thử công cụ trích xuất PDF trực tuyến miễn phí sau đây để trích xuất các trang từ PDF trực tuyến miễn phí. Công cụ trực tuyến miễn phí trình trích xuất trang PDF này được phát triển bằng API trên.

Phần kết luận

Chúng tôi đang kết thúc bài viết blog này ở đây. Trong bài viết này, bạn đã học được:

  • cách trích xuất một số trang nhất định từ PDF hoặc trích xuất một trang từ PDF trực tuyến bằng API REST;
  • cách trích xuất các trang từ tài liệu PDF bằng bộ lọc chế độ phạm vi và phạm vi trang;
  • tải tệp PDF lên đám mây để xuất các trang đã chọn từ PDF trực tuyến;
  • tải xuống và lưu một số trang PDF nhất định từ đám mây;
  • cách trích xuất các trang từ PDF miễn phí;

Bây giờ, bạn đã biết cách trích xuất một trang từ tài liệu PDF hoặc cách lưu một số trang nhất định của tệp PDF. API cũng cho phép bạn sắp xếp lại hoặc thay thế các trang tài liệu, thay đổi hướng trang, quản lý mật khẩu tài liệu và thực hiện các thao tác khác một cách dễ dàng đối với mọi định dạng tệp được hỗ trợ. Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Merge Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt.

Ngoài ra, chúng tôi khuyên bạn nên tham khảo Hướng dẫn bắt đầu. của chúng tôi

Ngoài ra, groupdocs.cloud thường xuyên viết bài về các chủ đề mới. Vì vậy, hãy giữ liên lạc cho các bản cập nhật mới nhất.

Đặt một câu hỏi

Bạn có thể đặt câu hỏi về cách trích xuất tệp PDF để xuất các trang đã chọn từ PDF qua Diễn đàn hỗ trợ miễn phí của chúng tôi

câu hỏi thường gặp

Làm cách nào để trích xuất nhiều trang từ PDF thành một tệp?

Cài đặt JS library để tách các tệp PDF thành nhiều trang trực tuyến theo chương trình. Bạn có thể truy cập tài liệu để biết chi tiết đầy đủ về API.

Mất bao lâu để trích xuất các trang cụ thể từ PDF?

Thư viện JavaScript HTML sang PDF hoạt động rất nhanh và bạn có thể trích xuất các trang từ tệp PDF được bảo vệ một cách dễ dàng trong vài giây.

Xem thêm

Để đọc và thông tin tốt nhất, vui lòng truy cập các bài viết sau: