Może być konieczne wyodrębnienie obrazów z dokumentów PDF lub Word w celu ich ponownego wykorzystania. Możesz łatwo programowo wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić obrazy z dokumentów PDF za pomocą interfejsu API REST w języku Python.
W tym artykule zostaną omówione następujące tematy:
- Interfejs API REST parsera dokumentów i zestaw SDK języka Python
- Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST
- Zapisuj obrazy według zakresu numerów stron za pomocą interfejsu API REST
- Pobierz obrazy z załączonego dokumentu za pomocą interfejsu API REST
Interfejs API REST parsera dokumentów i zestaw SDK języka Python
Do wyodrębniania obrazów z dokumentu PDF będę używał Python SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.
Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:
pip install groupdocs_parser_cloud
Zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu, uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST w języku Python
Możesz wyodrębnić obrazy z dokumentów PDF, wykonując proste czynności wymienione poniżej:
- Prześlij plik PDF do chmury
- Wyodrębnij obrazy z dokumentów PDF za pomocą Python
- Pobierać the extracted images
Prześlij dokument
Przede wszystkim prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:
# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.
Wyodrębnij wszystkie obrazy z dokumentu PDF za pomocą Python
Możesz łatwo programowo wyodrębnić wszystkie obrazy z pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje obrazu
- Ustaw ścieżkę do pliku PDF
- Utwórz żądanie obrazów
- Uzyskaj wyniki, wywołując metodę ParseApi.images().
Poniższy przykładowy kod pokazuje, jak wyodrębnić wszystkie obrazy z dokumentu PDF przy użyciu interfejsu API REST.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Pobierz wyodrębnione obrazy
Powyższy przykładowy kod zapisze wyodrębnione obrazy w chmurze. Możesz pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:
# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# Pobierz obraz
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# Przenieś pobrany plik do katalogu roboczego
shutil.move(response, "C:\\Files\\Images")
Zapisz obrazy według numerów stron z dokumentów PDF za pomocą Python
Możesz łatwo programowo wyodrębnić obrazy z określonych stron pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje obrazu
- Podaj ścieżkę do pliku PDF
- Ustaw numer strony początkowej
- Ustaw liczbę stron do wyodrębnienia
- Utwórz żądanie obrazów
- Uzyskaj wyniki, wywołując metodę ParseApi.images().
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy według zakresu numerów stron z dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# zdefiniuj zakres stron
options.start_page_number = 1
options.count_pages_to_extract = 1
# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Pobierz obrazy z dokumentu załączonego w formacie PDF za pomocą Python
Możesz programowo wyodrębnić obrazy z dokumentu znajdującego się w kontenerze, dostępnego jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.
- Utwórz instancję ParseApi
- Zdefiniuj opcje obrazu
- Ustaw ścieżkę do pliku PDF
- Zdefiniuj ContainerItemInfo
- Podaj ścieżkę względną dokumentu wewnętrznego
- Ustaw numer strony początkowej
- Ustaw liczbę stron do wyodrębnienia
- Utwórz żądanie obrazów
- Uzyskaj wyniki, wywołując metodę ParseApi.images().
Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z dokumentu wewnątrz dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.
# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# ustaw element kontenera
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# zdefiniuj zakres stron
options.start_page_number = 2
options.count_pages_to_extract = 1
# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Wypróbuj online
Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf
Wniosek
W tym artykule nauczyłeś się, jak wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Nauczyłeś się również, jak pobierać wyodrębnione obrazy za pomocą zestawu SDK. Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.
Zobacz też
- Wyodrębnij tekst z dokumentów PDF za pomocą interfejsu API REST w języku Python
- Rozwiązanie REST API do analizowania dokumentów i wyodrębniania danych
- Wyodrębnij dane z pythona dokumentu Word za pomocą interfejsu API REST w Node.js
- Wyodrębnij określony tekst z dokumentu Word i tabel wyciągu Python docx