Cách trích xuất các trang từ tài liệu Word bằng Python

Cách trích xuất các trang từ tài liệu Word bằng Python

Bạn có thể cần chia tài liệu từ thành nhiều tài liệu theo trang theo chương trình. Bằng cách chia nhỏ tài liệu từ, bạn có thể dễ dàng trích xuất trang từ tài liệu từ và chia sẻ thông tin hoặc dữ liệu cụ thể với các bên liên quan. Là nhà phát triển Python, bạn có thể chia tài liệu từ thành các tệp riêng biệt trực tuyến trên đám mây. Trong bài viết này, bạn sẽ học cách trích xuất các trang từ tài liệu word bằng Python.

Các chủ đề sau sẽ được đề cập trong bài viết về bộ chia trang từ này:

Bộ chia tài liệu Word API REST - Python SDK

Để chia tệp từ thành nhiều tệp, tôi sẽ sử dụng Python SDK của GroupDocs.Merger Cloud API. Nó cho phép bạn xoay, tách, nối, xóa và sắp xếp lại một trang hoặc một tập hợp các trang từ các định dạng tài liệu được hỗ trợ của Word, Excel, Visio drawings, PDFHTML. Python kho mã nguồn được cung cấp miễn phí trên GitHub.

Tải xuống miễn phí trình chia tệp Word có sẵn. Bạn có thể cài đặt bộ tách tài liệu từ cho ứng dụng Python của mình bằng PIP từ PyPI bằng cách sử dụng lệnh sau trong terminal:

pip install groupdocs-merger-cloud

Vui lòng lấy ID khách hàng và Bí mật của bạn từ bảng điều khiển trước khi làm theo các bước được đề cập bên dưới. Khi bạn có ID và Bí mật, hãy thêm mã bên dưới vào ứng dụng của bạn để chia tài liệu từ thành các tệp riêng biệt như hình bên dưới:

# Nhập SDK sáp nhập groupdocs
import groupdocs_merger_cloud

# Nhận app_sid & app_key từ https://dashboard.groupdocs.cloud sau khi đăng ký miễn phí.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Nhận cấu hình API tệp 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Cách chia tài liệu Word thành một tài liệu trong Python

Bạn có thể phân tách docx theo chương trình trên đám mây bằng cách thực hiện theo các bước được đề cập bên dưới.

Tải lên tài liệu Word

Đầu tiên, chúng tôi sẽ tải các tệp từ lên đám mây để trích xuất các trang từ từ trực tuyến bằng ví dụ mã được cung cấp bên dưới:

# Tải tệp Word lên bộ nhớ đám mây
# Tạo một phiên bản của API tệp
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Yêu cầu tệp tải lên cuộc gọi
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\word-file.docx", "H:\\groupdocs-cloud-data\\word-file.docx", storage_name)

# Tải tệp từ lên đám mây
response = file_api.upload_file(request)
print(response.uploaded)

Do đó, các tệp đã tải lên sẽ có sẵn trong phần tệp của trang tổng quan của bạn trên đám mây.

Tách các trang tài liệu Word trong Python

Bạn có thể chia các trang từ thành các tệp riêng biệt theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Đầu tiên, tạo một phiên bản của DocumentApi.
  • Sau đó, tạo một phiên bản của SplitOptions
  • Bây giờ, hãy tạo một phiên bản của FileInfo
  • Truyền đường dẫn tệp đầu vào làm đối số cho FileInfo
  • Tiếp theo, cung cấp đường dẫn tệp đầu ra
  • Đặt số trang cụ thể trong một mảng được phân tách bằng dấu phẩy
  • Bây giờ, hãy đặt chế độ phân chia docx thành Trang. Nó cho phép chia số trang trong một mảng được phân tách bằng dấu phẩy
  • Tạo SplitRequest với SplitOptions
  • Cuối cùng, gọi phương thức DocumentAPI.split() với SplitRequest làm đối số và nhận kết quả

Đoạn mã sau cho biết cách chia tệp từ thành các trang riêng biệt bằng API REST trong Python:

# Cách chia tài liệu Word thành một tài liệu trong Python
try:
    # Tạo một phiên bản API tài liệu
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [1, 3]
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split word docx to single page document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))
Cách chia tệp Word thành các trang riêng biệt trong Python

Cách chia tệp Word thành các trang riêng biệt trong Python

Tải xuống tệp đơn

Cuối cùng, mẫu mã trên sẽ lưu tệp được phân tách trên đám mây bằng python. Nó có thể được tải xuống bằng cách sử dụng mẫu mã sau:

# Khởi tạo API để tải xuống tệp riêng biệt
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Tạo yêu cầu tệp tải xuống
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\word-file.docx", storage_name)

# Tải xuống tệp đã tách
response = file_api.download_file(request)

# Di chuyển tệp đã tải xuống vào thư mục của bạn
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Chia tài liệu Word thành các tài liệu đơn lẻ theo phạm vi trang trong Python

Bạn có thể chia tài liệu từ thành nhiều tài liệu theo trang trực tuyến bằng cách sử dụng các bước sau đây được đưa ra dưới đây:

  • Tạo một phiên bản của DocumentApi
  • Sau đó, tạo một phiên bản của SplitOptions
  • Bây giờ, hãy tạo một phiên bản của FileInfo
  • Truyền đường dẫn tệp đầu vào làm đối số cho FileInfo
  • Tiếp theo, cung cấp đường dẫn tệp đầu ra as “python-testing”
  • Đặt các giá trị bắt đầu\trang\số và kết thúc\trang\số
  • Đặt chế độ tách docx thành Trang để tách từ
  • Tạo SplitRequest với SplitOptions
  • Cuối cùng, gọi phương thức DocumentAPI.split() với SplitRequest làm đối số

Đoạn mã sau cho biết cách trích xuất các trang từ tài liệu từ trong Python bằng API REST:

# Cách chia tài liệu Word thành các tài liệu đơn lẻ theo phạm vi trang trong Python
try:
    # Tạo một phiên bản API tài liệu
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.mode = "Pages"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word to single files by page range: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Tách tài liệu Word thành các tệp riêng biệt bằng cách áp dụng bộ lọc

Bạn có thể chia tài liệu từ thành nhiều tài liệu theo trang trực tuyến bằng cách sử dụng chế độ phạm vi và bộ lọc theo chương trình như hình bên dưới:

  • Tạo một phiên bản của DocumentApi
  • Sau đó, tạo một phiên bản của SplitOptions
  • Bây giờ, hãy tạo một phiên bản của FileInfo
  • Truyền đường dẫn tệp đầu vào làm đối số cho FileInfo
  • Tiếp theo, cung cấp đường dẫn tệp đầu ra as “python-testing”
  • Đặt các giá trị bắt đầu\trang\số và kết thúc\trang\số
  • Tiếp theo, đặt phạm vi\mode thành “OddPages“
  • Đặt chế độ tách docx thành Trang để tách từ
  • Tạo SplitRequest với SplitOptions
  • Cuối cùng, gọi phương thức DocumentAPI.split() với SplitRequest làm đối số

Đoạn mã sau cho biết cách trích xuất các trang tài liệu từ bằng cách áp dụng bộ lọc bằng API REST trong Python:

# Cách chia tài liệu Word thành các tệp riêng biệt bằng cách áp dụng bộ lọc
try:
    # Tạo một phiên bản API tài liệu
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.start_page_number = 3
    options.end_page_number = 7
    options.range_mode = "OddPages"
    options.mode = "Pages" # mode Intervals

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word by range of pages and using filter: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Cách chia tài liệu Word thành nhiều tệp bằng Python

Bạn có thể chia tệp từ thành nhiều tài liệu theo chương trình bằng cách thực hiện theo các bước dưới đây:

  • Tạo một phiên bản của DocumentApi
  • Sau đó, tạo một phiên bản của SplitOptions
  • Bây giờ, hãy tạo một phiên bản của FileInfo
  • Truyền đường dẫn tệp đầu vào làm đối số cho FileInfo
  • Tiếp theo, cung cấp đường dẫn tệp đầu ra as “python-testing”
  • Sau đó, đặt bộ sưu tập trang ở định dạng mảng
  • Đặt chế độ tách docx thành Khoảng thời gian để tách từ
  • Tạo SplitRequest với SplitOptions
  • Cuối cùng, gọi phương thức DocumentAPI.split() với SplitRequest làm đối số

Đoạn mã sau cho biết cách chia docx thành nhiều tệp bằng API REST trong Python:

# Cách chia tệp Docx thành nhiều tệp bằng Python
try:
    # Tạo một phiên bản API tài liệu
    documentApi = groupdocs_merger_cloud.DocumentApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.SplitOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\word-file.docx")
    options.output_path = "python-testing"
    options.pages = [3, 6, 8]
    options.mode = "Intervals"

    result = documentApi.split(groupdocs_merger_cloud.SplitRequest(options))
    print("Successfully split Word file to multiple files: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Tách tệp Word trực tuyến

Làm cách nào để chia tài liệu từ thành nhiều tệp trực tuyến miễn phí? Bạn có thể dùng thử bộ chia tài liệu từ trực tuyến của chúng tôi để chia tài liệu từ thành nhiều tệp trực tuyến miễn phí theo một số trang cố định hoặc trong các phạm vi trang khác nhau. Tài liệu từ nhiều trang được chia thành nhiều tệp từ giữ nguyên định dạng của tài liệu gốc.

Phần kết luận

Trong hướng dẫn này, chúng ta đã học được:

  • cách chia tệp word thành hai bằng Python trên đám mây;
  • cách chia tệp docx thành các tệp riêng biệt trong Python;
  • Lập trình cách chia tài liệu từ theo trang trong Python;
  • lập trình cách chia tài liệu từ thành nhiều tài liệu trực tuyến bằng Python;
  • cách tách file word trực tuyến miễn phí bằng bộ tách trang word trực tuyến;

Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Merger Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn trực quan hóa và giao tiếp với các API của chúng tôi trực tiếp thông qua trình duyệt. Ngoài ra, vui lòng xem GroupDocs.Merger Cloud SDK dành cho Python Ví dụ tại đây.

Đặt một câu hỏi

Nếu bạn có bất kỳ câu hỏi nào về cách trích xuất các trang từ tài liệu từ trực tuyến, vui lòng hỏi chúng tôi trên Diễn đàn

câu hỏi thường gặp

Làm cách nào để trích xuất các trang từ tài liệu từ trực tuyến bằng API bộ tách docx?

Cài đặt bộ chia tài liệu tải xuống miễn phí thư viện Python để trích xuất các trang từ trực tuyến. Bạn có thể truy cập tài liệu để biết chi tiết đầy đủ về API.

Cách nhanh nhất để tách tài liệu từ trực tuyến miễn phí là gì?

Trình trích xuất trang Word trực tuyến hoạt động rất nhanh và bạn có thể tách docx trực tuyến trong vài giây.

Làm cách nào để trích xuất trang từ trực tuyến miễn phí?

  • Mở trình trích xuất trang từ trực tuyến.
  • Nhấp vào bên trong khu vực thả tệp để tải lên tệp word docx hoặc kéo và thả tệp word.
  • Nhấp vào nút Chuyển đổi. Tài liệu của bạn sẽ được tải lên và chuyển đổi sang định dạng DOC.
  • Liên kết tải xuống của các tệp đầu ra sẽ có sẵn ngay sau khi chia tách.

Có an toàn khi sử dụng trình chia tài liệu trực tuyến miễn phí không?

Có, từ bộ chia tài liệu an toàn và không ai có quyền truy cập vào các tệp đã tải lên của bạn. Chúng tôi xóa các tệp đã tải lên sau 24 giờ.

Xem thêm