Wyodrębniaj obrazy z dokumentów PDF za pomocą interfejsu API REST w języku Python

Może być konieczne wyodrębnienie obrazów z dokumentów PDF lub Word w celu ich ponownego wykorzystania. Możesz łatwo programowo wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić obrazy z dokumentów PDF za pomocą interfejsu API REST w języku Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów i zestaw SDK języka Python
Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST
Zapisuj obrazy według zakresu numerów stron za pomocą interfejsu API REST
Pobierz obrazy z załączonego dokumentu za pomocą interfejsu API REST

Interfejs API REST parsera dokumentów i zestaw SDK języka Python

Do wyodrębniania obrazów z dokumentu PDF będę używał Python SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:

pip install groupdocs_parser_cloud

Zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu, uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST w języku Python

Możesz wyodrębnić obrazy z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij plik PDF do chmury
Wyodrębnij obrazy z dokumentów PDF za pomocą Python
Pobierać the extracted images

Prześlij dokument

Przede wszystkim prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij wszystkie obrazy z dokumentu PDF za pomocą Python

Możesz łatwo programowo wyodrębnić wszystkie obrazy z pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje obrazu
Ustaw ścieżkę do pliku PDF
Utwórz żądanie obrazów
Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić wszystkie obrazy z dokumentu PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Wyodrębnij wszystkie obrazy z dokumentu PDF.

Pobierz wyodrębnione obrazy

Powyższy przykładowy kod zapisze wyodrębnione obrazy w chmurze. Możesz pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Pobierz obraz 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Przenieś pobrany plik do katalogu roboczego
shutil.move(response, "C:\\Files\\Images")

Zapisz obrazy według numerów stron z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić obrazy z określonych stron pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje obrazu
Podaj ścieżkę do pliku PDF
Ustaw numer strony początkowej
Ustaw liczbę stron do wyodrębnienia
Utwórz żądanie obrazów
Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy według zakresu numerów stron z dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# zdefiniuj zakres stron
options.start_page_number = 1
options.count_pages_to_extract = 1

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Wyodrębnij obrazy według zakresu numerów stron z dokumentu PDF.

Pobierz obrazy z dokumentu załączonego w formacie PDF za pomocą Python

Możesz programowo wyodrębnić obrazy z dokumentu znajdującego się w kontenerze, dostępnego jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

Utwórz instancję ParseApi
Zdefiniuj opcje obrazu
Ustaw ścieżkę do pliku PDF
Zdefiniuj ContainerItemInfo
Podaj ścieżkę względną dokumentu wewnętrznego
Ustaw numer strony początkowej
Ustaw liczbę stron do wyodrębnienia
Utwórz żądanie obrazów
Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z dokumentu wewnątrz dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# ustaw element kontenera
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# zdefiniuj zakres stron
options.start_page_number = 2
options.count_pages_to_extract = 1

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Wyodrębnij obrazy z dokumentu załączonego w dokumencie PDF.

Wypróbuj online

Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Nauczyłeś się również, jak pobierać wyodrębnione obrazy za pomocą zestawu SDK. Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Interfejs API REST parsera dokumentów i zestaw SDK języka Python#

Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST w języku Python#

Prześlij dokument#

Wyodrębnij wszystkie obrazy z dokumentu PDF za pomocą Python#

Pobierz wyodrębnione obrazy#

Zapisz obrazy według numerów stron z dokumentów PDF za pomocą Python#

Pobierz obrazy z dokumentu załączonego w formacie PDF za pomocą Python#

Wypróbuj online#

Wniosek#

Zobacz też#