Jeśli jesteś programistą Python i chcesz wyodrębnić dane z dokumentów, ten artykuł poprowadzi Cię do wyodrębnienia obrazów z różnych dokumentów tekstowych, arkuszy kalkulacyjnych, prezentacji i dokumentów PDF przy użyciu prostych przykładów Python.
Dziś zostaną poruszone następujące tematy:
- Wyodrębnianie obrazu REST API i Python SDK
- Wyodrębnij obrazy z dokumentu PDF za pomocą Python
- Ekstrakcja obrazów z dokumentów Excel, PPT lub Word za pomocą Python
Wyodrębnianie obrazu REST API i Python SDK
Tym razem użyjemy Python SDK z GroupDocs.Parser Cloud API do ekstrakcji obrazów z różnych typów dokumentów. Jednak obecnie udostępnia również pakiety SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parsowania dokumentów dla Cloud API.
Interfejs API obsługuje również wyodrębnianie tekstu i metadanych, a także wyodrębnianie obrazów z różnych rodzajów dokumentów, takich jak dokumenty edytorów tekstu, arkusze kalkulacyjne, prezentacje, wiadomości e-mail, archiwa, znaczniki i dokumenty PDF.
Przechodząc do celu, najpierw zdobądź KLUCZ APP i SID APP z panelu nawigacyjnego, zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu.
Wyodrębnij obrazy z pliku PDF za pomocą Python
Na przykład najpierw wyodrębnię obrazy z dokumentu PDF. Wykonując proste czynności, wszystkie obrazy można łatwo wyodrębnić.
- Prześlij dokument PDF do chmury.
- Wyodrębnij obrazy z przesłanego dokumentu.
- Pobierz wyodrębnione obrazy.
Prześlij dokument PDF
Najpierw prześlij dokument PDF do chmury, korzystając z jednej z następujących metod:
- Korzystanie z pulpitu nawigacyjnego.
- Używając Upload File API z przeglądarki.
- Programowo, jak wspomniano w dokumentacji.
W rezultacie plik PDF zostanie przesłany do Cloud Storage
Wyodrębnij obrazy z przesłanego dokumentu PDF
Teraz skończyłeś z trudną częścią, aby wyodrębnić wszystkie zdjęcia z pliku PDF. Podążanie za kodem Python pozwoli Ci szybko wyodrębnić wszystkie obrazy z przesłanego dokumentu PDF.
# Jak wyodrębnić obrazy z dokumentów Word, arkuszy kalkulacyjnych Excel, prezentacji lub dokumentu PDF w Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Uzyskaj identyfikator SID aplikacji i klucz aplikacji z https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Wyświetl właściwości wyodrębnionych obrazów
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Pobierz wyodrębnione obrazy
Po wyodrębnieniu obrazów możesz pobrać je z chmury z pulpitu nawigacyjnego lub programowo. Pokazane tutaj obrazy pochodzą z powyższego dokumentu PDF.
Ekstrakcja obrazu z dokumentów Excel, PPT lub Word za pomocą Python
Podobnie możesz wyodrębnić wszystkie obrazy z dokumentów Worda, arkuszy kalkulacyjnych, prezentacji z dokładnie wspomnianym wyżej kodem Python dla dokumentu PDF. Wystarczy zmienić ścieżkę pliku na poprawną nazwę dokumentu z rozszerzeniem.
# Wyodrębnij obrazy z dokumentów Word, arkuszy kalkulacyjnych Excel, prezentacji w Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Po prostu zmień ścieżkę dokumentu zgodnie z wymaganiami (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Wyodrębnij obrazy z dokumentu online
Jak bezpłatnie wyodrębnić obrazy z pliku lub dokumentu online? Groupdocs.Parser zapewnia bezpłatne narzędzie online do wyodrębniania obrazów z programu Word Online, wyodrębniania wszystkich obrazów z plików PDF, zapisywania wszystkich obrazów w programie Powerpoint lub wyodrębniania obrazów z xlsx Python. Po prostu wybierz dokument, z którego chcesz wyodrębnić obrazy jpg, png, jpeg lub gif.
Narzędzia Wyodrębnij obrazy z pdf online za darmo, Wyodrębnij obrazy z programu Excel online, Wyodrębnij obraz z programu word online i Wyodrębnij obrazy z pptx online Interfejs API Groupdocs.Parser w języku Python.
Wniosek
W tym artykule dowiedzieliśmy się, jak programowo wyodrębnić obrazy z programów Word, Excel, PowerPoint, PDF i innych dokumentów za pomocą Python. Nie ma różnicy w kodzie, musimy tylko zmienić ścieżkę i typ dokumentu źródłowego.
Aby uzyskać więcej funkcji i dowiedzieć się więcej o interfejsie API do analizowania dokumentów, odwiedź dokumentację, aby zapoznać się z artykułami zawierającymi również przykłady. Najlepszym sposobem przetestowania wyróżnionych funkcji jest zapoznanie się z działającymi przykładami open source z GitHub. W przypadku jakichkolwiek niejasności zespół pomocy technicznej GroupDocs chętnie Ci pomoże. Dzięki
Zadać pytanie
Jeśli masz jakiekolwiek pytania dotyczące sposobu wyodrębniania obrazów z plików PDF, XLSX, PPTX lub Word DOCX przy użyciu języka Python, prosimy zapytać nas na Free Support Forum
Zobacz też
- Wyodrębnij wszystkie obrazy z pliku PDF i wyodrębnij obrazy z pliku PDF online za pomocą Node.js
- Automatyczna ekstrakcja danych z PDF i wyodrębnianie danych z PDF python online
- Wyodrębnij obrazy z PDF python i wyodrębnij obrazy z PDF acrobat za pomocą Python
- Jak wyodrębnić określone dane z dokumentu Word za pomocą REST API w Node.js
- Wyodrębnij dane z PDF javascript i najlepszy język programowania, aby wyodrębnić dane z PDF
- Wyodrębnij tabele z python dokumentu Word za pomocą REST API w Python