Extraire des images de documents à l'aide de Python

Si vous êtes un développeur Python et que vous souhaitez extraire des données de documents, cet article vous guidera pour extraire des images de divers documents de traitement de texte, feuilles de calcul, présentations et documents PDF à l’aide d’exemples Python simples.

Les sujets suivants seront abordés aujourd’hui :

API REST d’extraction d’images et SDK Python

SDK Python d'analyse de documents

Cette fois, nous utiliserons le Python SDK de GroupDocs.Parser Cloud API pour l’extraction d’images à partir de différents types de documents. Cependant, actuellement, il fournit également les SDK .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyse de documents pour l’API Cloud.

L’API prend également en charge l’extraction de texte et de métadonnées ainsi que l’extraction d’images à partir de divers types de documents tels que les documents de traitement de texte, les feuilles de calcul, les présentations, les e-mails, les archives, le balisage et les documents PDF.

Pour en venir à l’objectif, obtenez d’abord votre clé d’application et votre SID d’application à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles.

Extraire des images d’un PDF à l’aide de Python

Document PDF pour extraire des images, obtenir des images à partir de pdf ou extraire une image à partir de pdf

À titre d’exemple, je vais d’abord extraire les images d’un document PDF. En suivant simplement des étapes simples, toutes les images peuvent être extraites facilement.

  • Téléchargez le document PDF dans le Cloud.
  • Extrayez les images du document téléchargé.
  • Téléchargez les images extraites.

Télécharger le document PDF

Tout d’abord, chargez le document PDF dans le Cloud en utilisant l’une des méthodes suivantes :

En conséquence, le fichier PDF sera téléchargé sur le Cloud Storage

Fichier PDF téléchargé sur le tableau de bord

Fichier PDF téléchargé sur dashboard.groupdocs.cloud/#/files

Extraire des images du document PDF téléchargé

Vous avez maintenant terminé avec la partie difficile d’extraire toutes les photos du pdf. Le code Python suivant vous permettra d’extraire rapidement toutes les images du document PDF téléchargé.

# Comment extraire des images de documents Word, de feuilles de calcul Excel, de présentations ou de documents PDF en Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Obtenez l'APP SID et la clé d'application à partir de https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Afficher les propriétés des images extraites
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Télécharger les images extraites

Une fois que vous avez extrait les images, vous pouvez les télécharger depuis le cloud à partir du tableau de bord ou par programme. Les images présentées ici sont extraites du document PDF présenté ci-dessus.

Images extraites d'un fichier PDF

Images extraites du document PDF

Images extraites du document à l'aide de Python

Extraire une image de haute qualité à partir d’un fichier pdf, xlsx, pptx ou docx

Extraction d’images à partir d’Excel, PPT ou Word Docs à l’aide de Python

De même, vous pouvez extraire toutes les images des documents Word, feuilles de calcul, présentations avec le code python exact mentionné ci-dessus pour le document PDF. Il vous suffit de changer le chemin du fichier avec le nom de document correct avec l’extension.

# Extrayez des images de documents Word, de feuilles de calcul Excel, de présentations en Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Modifiez simplement le chemin du document en fonction des besoins (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Extraire des images d’un document en ligne

Comment extraire des images d’un fichier ou d’un document en ligne gratuitement ? Groupdocs.Parser fournit un outil en ligne gratuit pour extraire des images de word en ligne, extraire toutes les images de pdf, enregistrer toutes les images dans un powerpoint ou extraire des images de xlsx python. Sélectionnez simplement le document dont vous souhaitez extraire les images jpg, png, jpeg ou gif.

Les outils Extract images from pdf online free, Extract images from excel online, Extract image from word online et Extract images from pptx online ont été développés à l’aide des API Groupdocs.Parser Python.

Conclusion

Dans cet article, nous avons appris comment extraire par programme des images de Word, Excel, PowerPoint, PDF et d’autres documents à l’aide de Python. Aucune différence dans le code, il suffit de changer le chemin et le type du document source.

Pour plus de fonctionnalités et pour en savoir plus sur l’API d’analyse de documents, visitez la documentation pour les articles qui contiennent également les exemples. La meilleure façon de tester les fonctionnalités mises en évidence est de découvrir les exemples d’exécution open source de GitHub. En cas de confusion, l’équipe d’assistance de GroupDocs se fera un plaisir de vous aider. Merci

poser une question

Si vous avez des questions concernant l’extraction d’images à partir de PDF, XLSX, PPTX ou Word DOCX à l’aide de Python, n’hésitez pas à nous contacter sur Free Support Forum

Voir également