Cách chuyển tệp PDF thành nhiều tệp PDF trong Python

Tách tài liệu Python - Tách tệp PDF thành nhiều tệp PDF bằng Python.

PDF(Định dạng Tài liệu Di động) là định dạng tệp được sử dụng rộng rãi cho các tài liệu cần được chia sẻ, in hoặc lưu trữ. Bạn có mệt mỏi khi xử lý các tệp PDF lớn chứa nhiều tài liệu hoặc phần không? Bạn có thấy khó trích xuất các trang hoặc phần cụ thể từ một tệp PDF thành các tài liệu riêng biệt không? Việc chia nhỏ tệp PDF thành nhiều tệp nhỏ hơn có thể đơn giản hóa rất nhiều tác vụ quản lý tài liệu của bạn. Trong bài viết này, chúng ta sẽ khám phá cách chia tệp PDF thành nhiều tệp PDF trong Python bằng cách sử dụng GroupDocs.Merger Cloud SDK cho Python.

Các chủ đề sau đây sẽ được đề cập trong bài viết này:

API REST của Python để tách PDF thành các trang và Cài đặt SDK

GroupDocs.Merger Cloud SDK for Python là một bộ công cụ phát triển phần mềm mạnh mẽ và giàu tính năng cho phép bạn thao tác với các tệp PDF theo chương trình. Nó cung cấp nhiều chức năng khác nhau, bao gồm chia nhỏ, hợp nhất, xoay và sắp xếp lại tập hợp các trang ở các định dạng tài liệu được hỗ trợ. SDK có thể được tích hợp vào ứng dụng dựa trên Python để đơn giản hóa quy trình phát triển của bạn và nâng cao năng suất.

Bạn có thể cài đặt API Hợp nhất trong ứng dụng Python của mình với PIP từ PyPI bằng cách chạy lệnh sau trong terminal:

pip install groupdocs-merger-cloud

Tiếp theo, bạn cần đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Python:

# Nhập SDK sáp nhập groupdocs
import groupdocs_merger_cloud

# Nhận app_sid & app_key từ https://dashboard.groupdocs.cloud sau khi đăng ký miễn phí.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Nhận cấu hình API tệp 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Cách chia các trang PDF thành các tệp PDF riêng biệt bằng Python

Để chia tệp PDF thành nhiều tệp PDF bằng GroupDocs.Merger Cloud SDK dành cho Python, hãy làm theo các bước sau:

Tải tệp lên

Đầu tiên, tải tệp PDF lên đám mây bằng ví dụ mã được cung cấp bên dưới:

# Tạo một phiên bản của tệp API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Yêu cầu tệp tải lên cuộc gọi
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Tải tệp lên đám mây
response = file_api.upload_file(request)
print(response.uploaded)

Do đó, các tệp đã tải lên sẽ có trong phần tệp trên trang tổng quan của bạn trên đám mây.

Tách PDF thành các trang riêng lẻ trong Python

Trong phần này, chúng tôi sẽ viết các bước và một đoạn mã ví dụ để chia các trang PDF thành các tệp PDF riêng biệt theo chương trình như sau:

  • Đầu tiên, tạo một thể hiện của lớp DocumentApi.
  • Thứ hai, tạo một thể hiện của lớp SplitOptions.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Cung cấp đường dẫn tệp đầu vào dưới dạng tham số cho FileInfo.
  • Tiếp theo, cung cấp đường dẫn thư mục đầu ra.
  • Đặt số trang cụ thể trong một mảng được phân tách bằng dấu phẩy.
  • Bây giờ, hãy đặt chế độ chia PDF thành Trang để chia số trang.
  • Sau đó, tạo một thể hiện của lớp SplitRequest và chuyển tham số SplitOptions.
  • Cuối cùng, gọi phương thức DocumentAPI.split() và truyền tham số SplitRequest để nhận kết quả.

Đoạn mã sau cho biết cách chia nhỏ tệp PDF trong Python bằng API REST:

# Cách chia tệp PDF thành nhiều tệp PDF đơn lẻ bằng Python
try:
	# Tạo một phiên bản API tài liệu
	documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
	 
	options = groupdocs_merger_cloud.SplitOptions()
	options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\input-sample-file.pdf")
	options.output_path = "python-testing"
	options.pages = [1, 3]
	options.mode = "Pages"

	result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
	print("Successfully split PDF to single page PDF files: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Tải xuống tệp

Mẫu mã trên sẽ lưu tệp được phân tách trên đám mây. Bạn có thể tải xuống bằng mẫu mã sau:

# Khởi tạo API để tải xuống tệp
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Tạo yêu cầu tệp tải xuống
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\input-sample-file.pdf", storage_name)

# Tải tập tin
response = file_api.download_file(request)

# Di chuyển tệp đã tải xuống vào thư mục của bạn
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Đó là nó!

Tách tài liệu PDF thành các tệp riêng biệt bằng cách áp dụng bộ lọc phạm vi

Bạn có thể tách các tệp PDF bằng cách cung cấp chế độ phạm vi trang và lọc theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Đầu tiên, tạo một thể hiện của lớp DocumentApi.
  • Thứ hai, tạo một thể hiện của lớp SplitOptions.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Cung cấp đường dẫn tệp đầu vào dưới dạng tham số cho FileInfo.
  • Tiếp theo, cung cấp đường dẫn thư mục đầu ra là “thử nghiệm trăn”.
  • Đặt giá trị số trang đầu và số trang cuối.
  • Tiếp theo, đặt chế độ phạm vi trang thành OddPages.
  • Bây giờ, hãy đặt chế độ chia PDF thành Trang để chia số trang.
  • Sau đó, tạo một thể hiện của lớp SplitRequest và chuyển tham số SplitOptions.
  • Cuối cùng, gọi phương thức DocumentAPI.split() và truyền tham số SplitRequest để nhận kết quả.

Đoạn mã sau cho biết cách chia nhỏ tệp PDF bằng cách áp dụng bộ lọc trong Python bằng API REST:

# Cách chia tệp PDF thành nhiều tệp PDF đơn lẻ bằng cách áp dụng bộ lọc
try:
	# Tạo một phiên bản của API tài liệu
	documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
	 
	options = groupdocs_merger_cloud.SplitOptions()
	options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\input-sample-file.pdf")
	options.output_path = "python-testing"
	options.start_page_number = 3
	options.end_page_number = 9
	options.range_mode = "OddPages"
	options.mode = "Pages" # mode Intervals

	result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
	print("Successfully split PDF file using pages range filter: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Chia trang PDF thành nhiều tệp trong Python bằng cách áp dụng bộ lọc mảng

Trong phần này, chúng tôi sẽ viết các bước và đoạn mã ví dụ để chia tệp PDF thành nhiều tệp PDF theo chương trình:

  • Đầu tiên, tạo một thể hiện của lớp DocumentApi.
  • Thứ hai, tạo một thể hiện của lớp SplitOptions.
  • Thứ ba, tạo một thể hiện của lớp FileInfo.
  • Cung cấp đường dẫn tệp đầu vào dưới dạng tham số cho FileInfo.
  • Tiếp theo, cung cấp đường dẫn thư mục đầu ra là “thử nghiệm trăn”.
  • Sau đó, đặt tuyển tập trang ở định dạng mảng.
  • Đặt chế độ chia PDF thành Khoảng thời gian để chia tệp PDF.
  • Sau đó, tạo một thể hiện của lớp SplitRequest và chuyển tham số SplitOptions.
  • Cuối cùng, gọi phương thức DocumentAPI.split() và truyền tham số SplitRequest để nhận kết quả.

Đoạn mã sau cho biết cách chia tệp PDF thành nhiều tệp PDF trong Python bằng API REST:

# Cách chia tệp PDF thành một số tệp nhiều trang trong Python
try:
	# Tạo một phiên bản API tài liệu
	documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
	 
	options = groupdocs_merger_cloud.SplitOptions()
	options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\input-sample-file.pdf")
	options.output_path = "python-testing"
	options.pages = [3, 6, 8]
	options.mode = "Intervals"

	result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
	print("Successfully split PDF file to multiple PDF files: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Bộ chia PDF trực tuyến miễn phí

Làm cách nào để chia nhỏ tệp PDF trực tuyến miễn phí? Vui lòng dùng thử công cụ bộ tách PDF trực tuyến sau để tách tài liệu PDF miễn phí. Công cụ trực tuyến chia tài liệu này được phát triển bằng cách sử dụng API REST đã đề cập ở trên.

Kết luận

Tóm lại, việc chia tệp PDF thành nhiều tệp PDF bằng cách sử dụng GroupDocs.Merger Cloud SDK dành cho Python cung cấp một cách thuận tiện để quản lý và thao tác với tài liệu PDF của bạn. Sau đây là những gì bạn đã học được trong bài viết này:

  • cách chia một tệp PDF thành nhiều tệp bằng Python trên đám mây;
  • lập trình tải lên và tải xuống các tệp bằng Python trên đám mây;
  • chia tệp PDF thành nhiều tệp trong Python bằng cách sử dụng bộ lọc phạm vi trang;
  • và chia nhỏ các tệp PDF miễn phí bằng bộ chia PDF trực tuyến.

Ngoài ra, chúng tôi cũng cung cấp Phần tham chiếu API cho phép bạn trực quan hóa và giao tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Python SDK có sẵn miễn phí trên GitHub. Vui lòng kiểm tra GroupDocs.Merger Cloud SDK dành cho Python Ví dụ tại đây.

Ngoài ra, chúng tôi khuyên bạn nên làm theo Hướng dẫn bắt đầu của chúng tôi để biết các bước chi tiết và cách sử dụng API.

Cuối cùng, chúng tôi tiếp tục viết các bài đăng blog mới về các hoạt động tài liệu khác nhau bằng API REST. Vì vậy, xin vui lòng liên lạc để cập nhật thường xuyên.

Đặt một câu hỏi

Nếu bạn có bất kỳ câu hỏi nào về API trình chia tài liệu PDF, vui lòng hỏi chúng tôi trên Diễn đàn hỗ trợ miễn phí.

câu hỏi thường gặp

Tôi có thể chia tệp PDF thành nhiều tệp dựa trên các trang cụ thể không?

Có, bằng cách sử dụng GroupDocs.Merger Cloud SDK for Python, bạn có thể xác định phạm vi trang để trích xuất và chia một tệp PDF thành các tệp PDF riêng biệt.

GroupDocs.Merger Cloud SDK dành cho Python có hỗ trợ các định dạng tài liệu khác ngoài PDF không?

Có, GroupDocs.Merger Cloud SDK dành cho Python hỗ trợ nhiều định dạng tài liệu khác nhau, bao gồm DOCX, XLSX, PPTX, v.v. Bạn cũng có thể thực hiện các thao tác tương tự trên các loại tệp này.

Có thể hợp nhất các tệp PDF đã tách thành một tệp duy nhất nếu cần không?

Có, GroupDocs.Merger Cloud SDK for Python cũng hỗ trợ hợp nhất các tệp PDF. Bạn có thể dễ dàng kết hợp các tệp PDF đã tách thành một tài liệu duy nhất khi được yêu cầu.

GroupDocs.Merger Cloud SDK dành cho Python có giữ nguyên định dạng ban đầu của tệp PDF trong quá trình chia tách không?

Có, SDK duy trì định dạng và bố cục ban đầu của tệp PDF trong khi chia chúng thành nhiều tệp.

Xem thêm

Để biết thêm thông tin về các chủ đề liên quan, chúng tôi khuyên bạn nên xem các bài viết sau: