Wyodrębnij obrazy z dokumentów PDF

Może być konieczne wyodrębnienie obrazów z dokumentów PDF lub Word w celu ich ponownego wykorzystania. Możesz łatwo programowo wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono, jak wyodrębnić obrazy z dokumentów PDF za pomocą interfejsu API REST w języku Python.

W tym artykule zostaną omówione następujące tematy:

Interfejs API REST parsera dokumentów i zestaw SDK języka Python

Do wyodrębniania obrazów z dokumentu PDF będę używał Python SDK of GroupDocs.Parser Cloud API. Pozwala analizować dane ze wszystkich popularnych typów dokumentów. Możesz wyodrębniać tekst, obrazy i analizować dane według szablonu za pomocą zestawu SDK. Udostępnia również zestawy SDK .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API.

Możesz zainstalować GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for python), używając następującego polecenia w konsoli:

pip install groupdocs_parser_cloud

Zanim zaczniesz postępować zgodnie z instrukcjami i dostępnymi przykładami kodu, uzyskaj swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego. Po uzyskaniu identyfikatora klienta i klucza tajnego dodaj kod, jak pokazano poniżej:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Wyodrębnij obrazy z pliku PDF za pomocą interfejsu API REST w języku Python

Możesz wyodrębnić obrazy z dokumentów PDF, wykonując proste czynności wymienione poniżej:

Prześlij dokument

Przede wszystkim prześlij dokument PDF do chmury, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

W rezultacie przesłany plik PDF (sample.pdf) będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij wszystkie obrazy z dokumentu PDF za pomocą Python

Możesz łatwo programowo wyodrębnić wszystkie obrazy z pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje obrazu
  • Ustaw ścieżkę do pliku PDF
  • Utwórz żądanie obrazów
  • Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić wszystkie obrazy z dokumentu PDF przy użyciu interfejsu API REST.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Wyodrębnij wszystkie obrazy z dokumentu PDF.

Wyodrębnij wszystkie obrazy z dokumentu PDF.

Pobierz wyodrębnione obrazy

Powyższy przykładowy kod zapisze wyodrębnione obrazy w chmurze. Możesz pobrać te obrazy, korzystając z przykładowego kodu podanego poniżej:

# inicjalizacja API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Pobierz obraz 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Przenieś pobrany plik do katalogu roboczego
shutil.move(response, "C:\\Files\\Images")

Zapisz obrazy według numerów stron z dokumentów PDF za pomocą Python

Możesz łatwo programowo wyodrębnić obrazy z określonych stron pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje obrazu
  • Podaj ścieżkę do pliku PDF
  • Ustaw numer strony początkowej
  • Ustaw liczbę stron do wyodrębnienia
  • Utwórz żądanie obrazów
  • Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy według zakresu numerów stron z dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# zdefiniuj zakres stron
options.start_page_number = 1
options.count_pages_to_extract = 1

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Wyodrębnij obrazy według zakresu numerów stron z dokumentu PDF.

Wyodrębnij obrazy według zakresu numerów stron z dokumentu PDF.

Pobierz obrazy z dokumentu załączonego w formacie PDF za pomocą Python

Możesz programowo wyodrębnić obrazy z dokumentu znajdującego się w kontenerze, dostępnego jako załącznik w pliku PDF, wykonując czynności wymienione poniżej.

  • Utwórz instancję ParseApi
  • Zdefiniuj opcje obrazu
  • Ustaw ścieżkę do pliku PDF
  • Zdefiniuj ContainerItemInfo
  • Podaj ścieżkę względną dokumentu wewnętrznego
  • Ustaw numer strony początkowej
  • Ustaw liczbę stron do wyodrębnienia
  • Utwórz żądanie obrazów
  • Uzyskaj wyniki, wywołując metodę ParseApi.images().

Poniższy przykładowy kod pokazuje, jak wyodrębnić obrazy z dokumentu wewnątrz dokumentu PDF przy użyciu interfejsu API REST. Wykonaj czynności wymienione wcześniej, aby pobrać wyodrębnione obrazy.

# inicjalizacja API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# zdefiniuj opcje obrazu
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# ustaw element kontenera
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# zdefiniuj zakres stron
options.start_page_number = 2
options.count_pages_to_extract = 1

# utwórz żądanie
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Wyodrębnij obrazy z dokumentu załączonego w dokumencie PDF

Wyodrębnij obrazy z dokumentu załączonego w dokumencie PDF.

Wypróbuj online

Wypróbuj następujące bezpłatne narzędzie online do analizowania plików PDF, które zostało opracowane przy użyciu powyższego interfejsu API. https://products.groupdocs.app/parser/pdf

Wniosek

W tym artykule nauczyłeś się, jak wyodrębniać obrazy z dokumentów PDF w chmurze. W tym artykule wyjaśniono również, jak programowo przesłać plik PDF do chmury. Nauczyłeś się również, jak pobierać wyodrębnione obrazy za pomocą zestawu SDK. Możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację naszych interfejsów API i interakcję z nimi bezpośrednio w przeglądarce. W przypadku jakichkolwiek niejasności prosimy o kontakt na forum.

Zobacz też