Estrai immagini da documenti usando Python

Se sei uno sviluppatore Python e desideri estrarre dati dai documenti, questo articolo ti guiderà a estrarre immagini da vari documenti di elaborazione testi, fogli di calcolo, presentazioni e documenti PDF utilizzando semplici esempi Python.

Oggi verranno trattati i seguenti argomenti:

API REST per l’estrazione di immagini e Python SDK

Analisi del documento Python SDK

Questa volta utilizzeremo Python SDK di GroupDocs.Parser Cloud API per l’estrazione di immagini da diversi tipi di documenti. Tuttavia, attualmente fornisce anche SDK .NET, Java, PHP, Ruby e Node.js come document parsing family members per l’API Cloud.

L’API supporta anche l’estrazione di testo e metadati insieme all’estrazione di immagini da vari tipi di documenti come documenti di elaborazione testi, fogli di calcolo, presentazioni, e-mail, archivi, markup e documenti PDF.

Venendo all’obiettivo, in primo luogo, ottieni la tua APP KEY e l’APP SID dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili.

Estrai immagini da PDF usando Python

Documento PDF per estrarre immagini, ottenere immagini da pdf o estrarre immagini da pdf

Ad esempio, per prima cosa estrarrò le immagini da un documento PDF. Seguendo semplici passaggi, tutte le immagini possono essere estratte facilmente.

  • Carica il documento PDF sul Cloud.
  • Estrai le immagini dal documento caricato.
  • Scarica le immagini estratte.

Carica il documento PDF

Innanzitutto, carica il documento PDF sul Cloud utilizzando uno dei seguenti metodi:

Di conseguenza, il file PDF verrà caricato nel Cloud Storage

File PDF caricato nella dashboard

File PDF caricato su dashboard.groupdocs.cloud/#/files

Estrai le immagini dal documento PDF caricato

Ora hai finito con la parte difficile per estrarre tutte le foto dal pdf. Seguire il codice Python ti consentirà di estrarre rapidamente tutte le immagini dal documento PDF caricato.

# Come estrarre immagini da documenti Word, fogli di calcolo Excel, presentazioni o documenti PDF in Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Ottieni l'APP SID e la chiave APP da https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Visualizza le proprietà delle immagini estratte
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Scarica le immagini estratte

Dopo aver estratto le immagini, puoi scaricare le immagini dal cloud dalla dashboard o in modo programmatico. Le immagini mostrate qui sono estratte dal documento PDF sopra mostrato.

Immagini estratte da un file PDF

Immagini estratte dal documento PDF

Immagini estratte dal documento utilizzando Python

Estrai immagini di alta qualità da file pdf, xlsx, pptx o docx

Estrazione di immagini da documenti Excel, PPT o Word utilizzando Python

Allo stesso modo, puoi estrarre tutte le immagini dai documenti Word, fogli di calcolo, presentazioni con l’esatto codice Python sopra menzionato per il documento PDF. Devi solo cambiare il percorso del file con il nome del documento corretto con estensione.

# Estrai immagini da documenti Word, fogli di calcolo Excel, presentazioni in Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Basta cambiare il percorso del documento in base ai requisiti (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Estrai le immagini dal documento online

Come estrarre immagini da file o documenti online gratuitamente? Groupdocs.Parser fornisce uno strumento online gratuito per estrarre immagini da word online, estrarre tutte le immagini da pdf, salvare tutte le immagini in un powerpoint o estrarre immagini da xlsx python. Basta selezionare il documento che si desidera estrarre immagini jpg, png, jpeg o gif.

Gli strumenti Estrai immagini da pdf online gratis, Estrai immagini da Excel online, Estrai immagini da Word online e Estrai immagini da pptx online sono stati sviluppati utilizzando il Groupdocs.Parser API Python.

Conclusione

In questo articolo abbiamo imparato come estrarre a livello di codice le immagini da Word, Excel, PowerPoint, PDF e altri documenti utilizzando Python. Nessuna differenza nel codice, dobbiamo solo cambiare il percorso e il tipo del documento di origine.

Per ulteriori funzionalità e per saperne di più sull’API di analisi dei documenti, visita la documentazione per gli articoli che contengono anche gli esempi. Il modo migliore per testare le funzionalità evidenziate è provare gli esempi di esecuzione open source da GitHub. In caso di confusione, il GroupDocs Support Team è lieto di aiutarti. Grazie

Fai una domanda

Se hai domande su come estrarre immagini da PDF, XLSX, PPTX o Word DOCX usando Python, non esitare a chiedere al Forum di supporto gratuito

Guarda anche