Trích xuất hình ảnh từ tài liệu bằng Python

Nếu bạn là nhà phát triển Python và muốn trích xuất dữ liệu từ tài liệu, bài viết này sẽ hướng dẫn bạn trích xuất hình ảnh từ nhiều tài liệu soạn thảo văn bản, bảng tính, bản trình bày và tài liệu PDF bằng các ví dụ Python đơn giản.

Các chủ đề sau đây sẽ được đề cập ngày hôm nay:

API REST trích xuất hình ảnh và SDK Python

Phân tích cú pháp tài liệu Python SDK

Lần này, chúng ta sẽ sử dụng Python SDK của GroupDocs.Parser Cloud API để trích xuất hình ảnh từ các loại tài liệu khác nhau. Tuy nhiên, hiện tại, nó cũng cung cấp SDK .NET, Java, PHP, Ruby và Node.js dưới dạng tài liệu phân tích thành viên họ cho Cloud API.

API cũng hỗ trợ trích xuất văn bản và siêu dữ liệu cùng với trích xuất hình ảnh từ nhiều loại tài liệu khác nhau như tài liệu xử lý văn bản, bảng tính, bản trình bày, email, tài liệu lưu trữ, đánh dấu và tài liệu PDF.

Đến với mục tiêu, trước tiên, hãy lấy APP KEY và APP SID của bạn từ dashboard trước khi bạn bắt đầu làm theo các bước và ví dụ mã có sẵn.

Trích xuất hình ảnh từ PDF bằng Python

Tài liệu PDF để trích xuất hình ảnh, lấy hình ảnh từ pdf hoặc trích xuất hình ảnh từ pdf

Ví dụ, đầu tiên tôi sẽ trích xuất hình ảnh từ tài liệu PDF. Chỉ cần làm theo các bước đơn giản, tất cả các hình ảnh có thể được trích xuất dễ dàng.

  • Tải tài liệu PDF lên Đám mây.
  • Trích xuất hình ảnh từ tài liệu đã tải lên.
  • Tải về các hình ảnh trích xuất.

Tải lên tài liệu PDF

Đầu tiên, tải tài liệu PDF lên Đám mây bằng bất kỳ phương pháp nào sau đây:

Kết quả là file PDF sẽ được upload lên Cloud Storage

Tệp PDF được tải lên tại bảng điều khiển

Tệp PDF đã tải lên tại dashboard.groupdocs.cloud/#/files

Trích xuất hình ảnh từ tài liệu PDF đã tải lên

Bây giờ bạn đã hoàn thành phần khó để trích xuất tất cả ảnh từ pdf. Mã Python sau đây sẽ cho phép bạn nhanh chóng trích xuất tất cả các hình ảnh từ tài liệu PDF đã tải lên.

# Cách trích xuất hình ảnh từ tài liệu Word, bảng tính Excel, Bản trình bày hoặc tài liệu PDF bằng Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Lấy APP SID và APP Key từ https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Thuộc tính hiển thị của Hình ảnh được trích xuất
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Tải xuống hình ảnh được trích xuất

Khi bạn đã trích xuất hình ảnh, bạn có thể tải xuống hình ảnh từ đám mây từ bảng điều khiển hoặc theo chương trình. Hình ảnh hiển thị ở đây được trích xuất từ tài liệu PDF được hiển thị ở trên.

Hình ảnh được trích xuất từ tệp PDF

Hình ảnh được trích xuất từ tài liệu PDF

Trích xuất hình ảnh từ tài liệu bằng Python

Trích xuất hình ảnh chất lượng cao từ tệp pdf, xlsx, pptx hoặc docx

Trích xuất hình ảnh từ Excel, PPT hoặc Word Docs bằng Python

Tương tự, bạn có thể trích xuất tất cả các hình ảnh từ tài liệu Word, bảng tính, bản trình bày bằng mã python chính xác đã đề cập ở trên cho tài liệu PDF. Bạn chỉ cần thay đổi đường dẫn tệp bằng tên tài liệu chính xác có phần mở rộng.

# Trích xuất hình ảnh từ tài liệu Word, bảng tính Excel, Bản trình bày bằng Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Chỉ cần thay đổi đường dẫn tài liệu theo yêu cầu (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Trích xuất hình ảnh từ tài liệu trực tuyến

Làm cách nào để trích xuất hình ảnh từ tệp hoặc tài liệu trực tuyến miễn phí? Groupdocs.Parser cung cấp công cụ trực tuyến miễn phí để trích xuất hình ảnh từ word trực tuyến, trích xuất tất cả hình ảnh từ pdf, lưu tất cả hình ảnh trong powerpoint hoặc trích xuất hình ảnh từ xlsx python. Chỉ cần chọn tài liệu bạn muốn trích xuất hình ảnh jpg, png, jpeg hoặc gif.

Các công cụ Trích xuất hình ảnh từ pdf trực tuyến miễn phí, trích xuất hình ảnh từ excel trực tuyến, trích xuất hình ảnh từ word trực tuyếntrích xuất hình ảnh từ pptx trực tuyến đã được phát triển bằng cách sử dụng Groupdocs.Parser Python API.

Phần kết luận

Trong bài viết này, chúng ta đã học cách lập trình trích xuất hình ảnh từ Word, Excel, PowerPoint, PDF và các tài liệu khác bằng Python. Không có sự khác biệt trong mã, chúng ta chỉ cần thay đổi đường dẫn và loại tài liệu nguồn.

Để biết thêm các tính năng và để tìm hiểu thêm về API phân tích cú pháp tài liệu, hãy truy cập tài liệu để biết các bài viết cũng chứa các ví dụ. Cách tốt nhất để kiểm tra các tính năng nổi bật là trải nghiệm các ví dụ đang chạy mã nguồn mở từ GitHub. Trong trường hợp có bất kỳ nhầm lẫn nào, Nhóm hỗ trợ GroupDocs rất vui được hỗ trợ bạn. Cảm ơn

Đặt một câu hỏi

Nếu bạn có bất kỳ thắc mắc nào về cách trích xuất hình ảnh từ PDF, XLSX, PPTX hoặc Word DOCX bằng Python, vui lòng hỏi chúng tôi tại Diễn đàn hỗ trợ miễn phí

Xem thêm