Estrai immagini da documenti PDF utilizzando un'API REST in Python

Potrebbe essere necessario estrarre le immagini dai documenti PDF o Word per riutilizzarle. Puoi facilmente estrarre immagini da documenti PDF in modo programmatico sul cloud. Questo articolo spiegherà come estrarre immagini da documenti PDF utilizzando un’API REST in Python.

In questo articolo saranno trattati i seguenti argomenti:

Document Parser REST API e Python SDK
Estrai immagini da PDF utilizzando un’API REST
Salva le immagini per intervallo di numeri di pagina utilizzando l’API REST
Ottieni immagini dal documento allegato utilizzando l’API REST

Document Parser REST API e Python SDK

Per estrarre immagini da un documento PDF, utilizzerò l’API Python SDK of GroupDocs.Parser Cloud. Ti consente di analizzare i dati da tutti i tipi di documenti più diffusi. Puoi estrarre testo, immagini e analizzare i dati da un modello utilizzando l’SDK. Fornisce inoltre SDK .NET, Java, PHP, Ruby e Node.js come membri della famiglia di analizzatori di documenti per l’API Cloud.

Puoi installare GroupDocs.Parser Cloud nel tuo progetto Python con pip (package installer for python) usando il seguente comando nella console:

pip install groupdocs_parser_cloud

Si prega di ottenere l’ID cliente e il segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID cliente e segreto, aggiungi il codice come mostrato di seguito:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Estrai immagini da PDF utilizzando un’API REST in Python

Puoi estrarre immagini da documenti PDF seguendo i semplici passaggi indicati di seguito:

Carica il file PDF nel Cloud
Estrai immagini da documenti PDF usando Python
Scaricamento the extracted images

Carica il documento

Prima di tutto, carica il documento PDF sul Cloud utilizzando il codice di esempio riportato di seguito:

# inizializzazione dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Di conseguenza, il file PDF caricato (sample.pdf) sarà disponibile nella sezione file della dashboard sul cloud.

Estrai tutte le immagini dal documento PDF usando Python

È possibile estrarre facilmente tutte le immagini dal file PDF in modo programmatico seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definire ImageOptions
Imposta il percorso del file PDF
Crea immaginiRichiesta
Ottieni risultati chiamando il metodo ParseApi.images().

L’esempio di codice seguente mostra come estrarre tutte le immagini da un documento PDF utilizzando un’API REST.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definire le opzioni dell'immagine
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# creare richiesta
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Estrai tutte le immagini dal documento PDF.

Scarica le immagini estratte

L’esempio di codice precedente salverà le immagini estratte sul cloud. È possibile scaricare queste immagini utilizzando l’esempio di codice fornito di seguito:

# inizializzazione dell'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Scarica l'immagine 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Sposta il file scaricato nella tua directory di lavoro
shutil.move(response, "C:\\Files\\Images")

Salva immagini per numero di pagina da documenti PDF usando Python

È possibile estrarre facilmente le immagini da pagine specifiche di un file PDF in modo programmatico seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definire ImageOptions
Fornire il percorso del file PDF
Imposta il numero della pagina iniziale
Imposta il conteggio delle pagine da estrarre
Crea immaginiRichiesta
Ottieni risultati chiamando il metodo ParseApi.images().

L’esempio di codice seguente mostra come estrarre le immagini in base all’intervallo di numeri di pagina da un documento PDF utilizzando un’API REST. Si prega di seguire i passaggi menzionati in precedenza per scaricare le immagini estratte.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definire le opzioni dell'immagine
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# definire l'intervallo di pagine
options.start_page_number = 1
options.count_pages_to_extract = 1

# creare richiesta
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Estrai le immagini per intervallo di numeri di pagina dal documento PDF.

Ottieni immagini da documenti allegati con PDF utilizzando Python

È possibile estrarre le immagini da un documento all’interno di un contenitore, disponibile come allegato in un file PDF a livello di programmazione seguendo i passaggi indicati di seguito.

Crea un’istanza di ParseApi
Definire ImageOptions
Imposta il percorso del file PDF
Definisci ContainerItemInfo
Fornire il percorso relativo del documento interno
Imposta il numero della pagina iniziale
Imposta il conteggio delle pagine da estrarre
Crea immaginiRichiesta
Ottieni risultati chiamando il metodo ParseApi.images().

L’esempio di codice seguente mostra come estrarre le immagini da un documento all’interno di un documento PDF usando un’API REST. Si prega di seguire i passaggi menzionati in precedenza per scaricare le immagini estratte.

# inizializzazione dell'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definire le opzioni dell'immagine
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# imposta elemento contenitore
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# definire l'intervallo di pagine
options.start_page_number = 2
options.count_pages_to_extract = 1

# creare richiesta
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Estrai le immagini dal documento allegato nel documento PDF.

Prova in linea

Prova il seguente strumento di analisi PDF online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/parser/pdf

Conclusione

In questo articolo, hai imparato come estrarre immagini da documenti PDF sul cloud. Questo articolo spiega anche come caricare a livello di codice un file PDF nel cloud. Hai anche imparato a scaricare le immagini estratte utilizzando l’SDK. Puoi saperne di più su GroupDocs.Parser Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di qualsiasi ambiguità, non esitate a contattarci sul forum.

Document Parser REST API e Python SDK#

Estrai immagini da PDF utilizzando un’API REST in Python#

Carica il documento#

Estrai tutte le immagini dal documento PDF usando Python#

Scarica le immagini estratte#

Salva immagini per numero di pagina da documenti PDF usando Python#

Ottieni immagini da documenti allegati con PDF utilizzando Python#

Prova in linea#

Conclusione#

Guarda anche#