Cách trích xuất các trang từ tệp PDF trực tuyến bằng Python

Trích xuất các trang từ tệp PDF trực tuyến bằng Python

Trong một số trường hợp nhất định, bạn có thể cần trích xuất các trang PDF từ tài liệu PDF hoặc có thể cần tách các tài liệu PDF lớn thành các tệp PDF nhỏ hơn. Là nhà phát triển Python, bạn có thể dễ dàng trích xuất các trang cụ thể từ tệp PDF trực tuyến hoặc trích xuất các trang PDF theo phạm vi trang theo chương trình. Trong bài viết này, bạn sẽ tìm hiểu cách trích xuất các trang từ tệp PDF trực tuyến bằng Python bằng API REST.

Các chủ đề sau sẽ được đề cập trong bài viết này:

Trình trích xuất tài liệu API REST và Python SDK

Để trích xuất các trang PDF từ tệp PDF trực tuyến, tôi sẽ sử dụng Python SDK của GroupDocs.Merger Cloud API. Đây là SDK đám mây có nhiều tính năng và hiệu suất cao. API Python này cho phép bạn trích xuất các trang PDF từ một tài liệu thành nhiều tệp. SDK cung cấp chức năng sắp xếp lại, xóa, trao đổi, xoay hoặc thay đổi hướng trang cho toàn bộ hoặc phạm vi trang ưa thích. Nó cũng hỗ trợ các thao tác khác cho bất kỳ định dạng tệp được hỗ trợ nào, chẳng hạn như đối với trang tính PDF, Word, PowerPoint, Excel, v.v. Hiện tại, nó hỗ trợ SDK .NET, Java, PHP, Ruby, Android và Node.js dưới dạng tài liệu của nó sáp nhập thành viên gia đình cho Cloud API.

Bạn có thể cài đặt GroupDocs.Merger-Cloud vào dự án Python của mình bằng lệnh sau trong bảng điều khiển:

pip install groupdocs_merger_cloud

Vui lòng lấy ID khách hàng và Bí mật khách hàng của bạn từ bảng điều khiển trước khi bạn bắt đầu làm theo các bước và ví dụ về mã có sẵn. Khi bạn có ID và bí mật của mình, hãy thêm mã như minh họa bên dưới:

# Nhập SDK sáp nhập groupdocs
import groupdocs_merger_cloud

# Nhận app_sid & app_key từ https://dashboard.groupdocs.cloud sau khi đăng ký miễn phí.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Nhận cấu hình API tệp 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Cách trích xuất các trang cụ thể từ PDF bằng Python bằng API REST

API trình tách PDF của chúng tôi cho phép bạn xem trước các trang bạn muốn tách. Bạn có thể chọn các trang bằng cách chỉ cung cấp số lượng trang bạn muốn trích xuất. Chia ngay tệp PDF của bạn thành các trang riêng lẻ hoặc trích xuất các trang cụ thể từ tài liệu PDF mới. Trích xuất các trang PDF từ các tệp PDF trực tuyến bằng cách thực hiện theo các bước đơn giản được đề cập bên dưới:

  1. Tải lên tệp PDF lên Đám mây.
  2. Trích xuất Trang PDF theo số trang trong Python.
  3. Tải xuống các tệp được giải nén.

Tải lên tài liệu

Trước hết, hãy tải tài liệu PDF nhiều trang lên Đám mây bằng đoạn mã được cung cấp bên dưới:

# Tải tệp PDF lên bộ nhớ đám mây
# Tạo một phiên bản của tệp API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Yêu cầu tệp tải lên cuộc gọi
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Tải tệp PDF lên đám mây
response = file_api.upload_file(request)
print(response.uploaded)

Do đó, tệp PDF sẽ được tải lên Cloud Storage và sẽ có trong phần tệp trên trang tổng quan của bạn. Chúng tôi xóa vĩnh viễn tất cả các tệp của bạn khỏi đám mây trong 24 giờ sau khi tải lên.

Trích xuất các trang cụ thể theo số trang bằng Python

Để trích xuất một trang cụ thể hoặc nhiều trang từ tài liệu PDF theo chương trình, hãy làm theo các bước được đề cập bên dưới:

  • Đầu tiên, tạo một phiên bản PagesApi
  • Thứ hai, cung cấp ví dụ ExtractOptions
  • Bây giờ, hãy đặt đường dẫn tệp đầu vào với phiên bản FileInfo
  • Tiếp theo, đặt đường dẫn thư mục đầu ra
  • Sau đó, cung cấp số trang được phân tách bằng dấu phẩy để trích xuất
  • Tiếp theo, đặt chế độ thành Trang
  • Tiếp theo, tạo phiên bản ExtractRequest
  • Cuối cùng, nhận kết quả bằng cách gọi lớp pagesApi.extract()

Ví dụ mã sau đây cho biết cách trích xuất các trang bằng cách cung cấp số trang cụ thể từ tài liệu PDF bằng API REST:

# Cách trích xuất các trang cụ thể từ PDF bằng Python bằng API REST
try:
    # Tạo một phiên bản của API Trang
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Tải xuống tệp trang PDF được giải nén

Mẫu mã trên sẽ lưu các trang được trích xuất trong các tệp PDF riêng biệt trên đám mây. Bạn có thể tải chúng xuống bằng cách sử dụng mẫu mã sau:

# Khởi tạo API để tải xuống tệp đã chuyển đổi
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Tạo yêu cầu tệp tải xuống
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Tải xuống tệp đã chuyển đổi
response = file_api.download_file(request)

# Di chuyển tệp đã tải xuống vào thư mục của bạn
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Trích xuất các trang từ PDF theo phạm vi trang trong Python bằng API REST

Vui lòng làm theo các bước được đề cập bên dưới để trích xuất các trang từ tài liệu PDF bằng cách cung cấp phạm vi trang theo chương trình.

  • Đầu tiên, tạo một phiên bản PagesApi
  • Tiếp theo, đặt ExtractOptions
  • Đặt đường dẫn tệp đầu vào với phiên bản FileInfo
  • Tiếp theo, đặt đường dẫn thư mục đầu ra
  • Cung cấp phạm vi trang bằng cách đặt số trang bắt đầu và số trang kết thúc để trích xuất
  • Bây giờ, đặt khoảng thời gian chế độ thành Trang
  • Đặt chế độ phạm vi thành Trang chẵn hoặc Trang lẻ
  • Tiếp theo, tạo phiên bản ExtractRequest
  • Cuối cùng, nhận kết quả bằng cách gọi phương thức pagesApi.extract()

Ví dụ mã sau đây cho biết cách trích xuất các trang bằng cách cung cấp phạm vi trang từ tài liệu PDF bằng API REST. Vui lòng làm theo các bước được đề cập trước đó để tải tệp lên.

# Cách trích xuất các trang từ PDF theo phạm vi trang trong Python bằng API REST
try:
    # Tạo một phiên bản API tài liệu
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Trình trích xuất trang PDF trực tuyến miễn phí

Làm cách nào để trích xuất các trang từ pdf miễn phí? Vui lòng thử công cụ trích xuất PDF trực tuyến miễn phí sau, được phát triển bằng API trên.

Tổng hợp

Điều này đưa chúng ta đến kết luận của bài đăng trên blog. Tôi hy vọng bạn đã học được:

  • cách trích xuất các trang cụ thể từ tài liệu PDF bằng Python;
  • tải lên tệp PDF theo chương trình và sau đó tải xuống các tệp đã giải nén từ đám mây;
  • cách trích xuất các trang tệp PDF bằng phạm vi trang bằng Python;

Bạn có thể tìm hiểu thêm về GroupDocs.Merger Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt.

Trên [trang Bắt đầu] của chúng tôi, 18 bạn có thể khám phá thêm chi tiết.

Hơn nữa, Groupdocs.cloud liên tục được cập nhật với các chủ đề mới. Do đó, luôn cập nhật thông tin mới nhất về API.

Đặt một câu hỏi

Bạn có thể đặt câu hỏi về API phần mềm trích xuất trang PDF, thông qua [Diễn đàn] Hỗ trợ miễn phí của chúng tôi(https://forum.groupdocs.cloud/c/conversion/11)

câu hỏi thường gặp

Làm cách nào để trích xuất các trang từ tệp PDF bằng Python?

Vui lòng theo liên kết này để tìm hiểu đoạn mã Python về cách trích xuất các trang từ tệp PDF bằng Python.

Làm cách nào để trích xuất các trang từ tài liệu PDF trực tuyến bằng API REST?

Tạo một phiên bản của PagesApi, đặt các giá trị của ExtractOptions và gọi phương thức pagesApi.extract() với ExtractRequest để lưu các trang đã chọn của tệp PDF trực tuyến.

Làm cách nào để cài đặt thư viện tải xuống miễn phí trình trích xuất trang PDF?

Một cách dễ dàng để trích xuất các trang từ PDF là sử dụng Python SDK. Bạn có thể cài đặt thư viện Python trích xuất PDF để trích xuất nhiều trang từ tệp PDF theo chương trình.

Làm cách nào để trích xuất các trang PDF ngoại tuyến trong windows?

Vui lòng truy cập liên kết này để tải xuống phần mềm giải nén PDF cho windows. Phần mềm tải xuống miễn phí trình trích xuất PDF này sẽ chia nhỏ các trang PDF trong cửa sổ một cách nhanh chóng chỉ bằng một cú nhấp chuột.

Xem thêm