Wyodrębnij obrazy z dokumentów za pomocą Python

Jeśli jesteś programistą Python i chcesz wyodrębnić dane z dokumentów, ten artykuł poprowadzi Cię do wyodrębnienia obrazów z różnych dokumentów tekstowych, arkuszy kalkulacyjnych, prezentacji i dokumentów PDF przy użyciu prostych przykładów Python.

Dziś zostaną poruszone następujące tematy:

Wyodrębnianie obrazu REST API i Python SDK

Zestaw SDK języka Python do analizowania dokumentów

Tym razem użyjemy Python SDK z GroupDocs.Parser Cloud API do ekstrakcji obrazów z różnych typów dokumentów. Jednak obecnie udostępnia również pakiety SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parsowania dokumentów dla Cloud API.

Interfejs API obsługuje również wyodrębnianie tekstu i metadanych, a także wyodrębnianie obrazów z różnych rodzajów dokumentów, takich jak dokumenty edytorów tekstu, arkusze kalkulacyjne, prezentacje, wiadomości e-mail, archiwa, znaczniki i dokumenty PDF.

Przechodząc do celu, najpierw zdobądź KLUCZ APP i SID APP z panelu nawigacyjnego, zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu.

Wyodrębnij obrazy z pliku PDF za pomocą Python

Dokument PDF do wyodrębniania obrazów, pobierania obrazów z pliku PDF lub wyodrębniania obrazu z pliku PDF

Na przykład najpierw wyodrębnię obrazy z dokumentu PDF. Wykonując proste czynności, wszystkie obrazy można łatwo wyodrębnić.

  • Prześlij dokument PDF do chmury.
  • Wyodrębnij obrazy z przesłanego dokumentu.
  • Pobierz wyodrębnione obrazy.

Prześlij dokument PDF

Najpierw prześlij dokument PDF do chmury, korzystając z jednej z następujących metod:

W rezultacie plik PDF zostanie przesłany do Cloud Storage

Plik PDF przesłany na pulpit nawigacyjny

Przesłano plik PDF na dashboard.groupdocs.cloud/#/files

Wyodrębnij obrazy z przesłanego dokumentu PDF

Teraz skończyłeś z trudną częścią, aby wyodrębnić wszystkie zdjęcia z pliku PDF. Podążanie za kodem Python pozwoli Ci szybko wyodrębnić wszystkie obrazy z przesłanego dokumentu PDF.

# Jak wyodrębnić obrazy z dokumentów Word, arkuszy kalkulacyjnych Excel, prezentacji lub dokumentu PDF w Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Uzyskaj identyfikator SID aplikacji i klucz aplikacji z https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Wyświetl właściwości wyodrębnionych obrazów
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Pobierz wyodrębnione obrazy

Po wyodrębnieniu obrazów możesz pobrać je z chmury z pulpitu nawigacyjnego lub programowo. Pokazane tutaj obrazy pochodzą z powyższego dokumentu PDF.

Obrazy wyodrębnione z pliku PDF

Obrazy wyodrębnione z dokumentu PDF

Wyodrębnione obrazy z dokumentu za pomocą Python

Wyodrębnij wysokiej jakości obraz z pliku pdf, xlsx, pptx lub docx

Ekstrakcja obrazu z dokumentów Excel, PPT lub Word za pomocą Python

Podobnie możesz wyodrębnić wszystkie obrazy z dokumentów Worda, arkuszy kalkulacyjnych, prezentacji z dokładnie wspomnianym wyżej kodem Python dla dokumentu PDF. Wystarczy zmienić ścieżkę pliku na poprawną nazwę dokumentu z rozszerzeniem.

# Wyodrębnij obrazy z dokumentów Word, arkuszy kalkulacyjnych Excel, prezentacji w Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Po prostu zmień ścieżkę dokumentu zgodnie z wymaganiami (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Wyodrębnij obrazy z dokumentu online

Jak bezpłatnie wyodrębnić obrazy z pliku lub dokumentu online? Groupdocs.Parser zapewnia bezpłatne narzędzie online do wyodrębniania obrazów z programu Word Online, wyodrębniania wszystkich obrazów z plików PDF, zapisywania wszystkich obrazów w programie Powerpoint lub wyodrębniania obrazów z xlsx Python. Po prostu wybierz dokument, z którego chcesz wyodrębnić obrazy jpg, png, jpeg lub gif.

Narzędzia Wyodrębnij obrazy z pdf online za darmo, Wyodrębnij obrazy z programu Excel online, Wyodrębnij obraz z programu word online i Wyodrębnij obrazy z pptx online Interfejs API Groupdocs.Parser w języku Python.

Wniosek

W tym artykule dowiedzieliśmy się, jak programowo wyodrębnić obrazy z programów Word, Excel, PowerPoint, PDF i innych dokumentów za pomocą Python. Nie ma różnicy w kodzie, musimy tylko zmienić ścieżkę i typ dokumentu źródłowego.

Aby uzyskać więcej funkcji i dowiedzieć się więcej o interfejsie API do analizowania dokumentów, odwiedź dokumentację, aby zapoznać się z artykułami zawierającymi również przykłady. Najlepszym sposobem przetestowania wyróżnionych funkcji jest zapoznanie się z działającymi przykładami open source z GitHub. W przypadku jakichkolwiek niejasności zespół pomocy technicznej GroupDocs chętnie Ci pomoże. Dzięki

Zadać pytanie

Jeśli masz jakiekolwiek pytania dotyczące sposobu wyodrębniania obrazów z plików PDF, XLSX, PPTX lub Word DOCX przy użyciu języka Python, prosimy zapytać nas na Free Support Forum

Zobacz też