Si vous êtes un développeur Python et que vous souhaitez extraire des données de documents, cet article vous guidera pour extraire des images de divers documents de traitement de texte, feuilles de calcul, présentations et documents PDF à l’aide d’exemples Python simples.
Les sujets suivants seront abordés aujourd’hui :
- API REST d’extraction d’images et SDK Python
- Extraire des images d’un document PDF à l’aide de Python
- Extraction d’images à partir d’Excel, PPT ou Word Docs à l’aide de Python
API REST d’extraction d’images et SDK Python
Cette fois, nous utiliserons le Python SDK de GroupDocs.Parser Cloud API pour l’extraction d’images à partir de différents types de documents. Cependant, actuellement, il fournit également les SDK .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyse de documents pour l’API Cloud.
L’API prend également en charge l’extraction de texte et de métadonnées ainsi que l’extraction d’images à partir de divers types de documents tels que les documents de traitement de texte, les feuilles de calcul, les présentations, les e-mails, les archives, le balisage et les documents PDF.
Pour en venir à l’objectif, obtenez d’abord votre clé d’application et votre SID d’application à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles.
Extraire des images d’un PDF à l’aide de Python
À titre d’exemple, je vais d’abord extraire les images d’un document PDF. En suivant simplement des étapes simples, toutes les images peuvent être extraites facilement.
- Téléchargez le document PDF dans le Cloud.
- Extrayez les images du document téléchargé.
- Téléchargez les images extraites.
Télécharger le document PDF
Tout d’abord, chargez le document PDF dans le Cloud en utilisant l’une des méthodes suivantes :
- Utilisation du tableau de bord.
- Utilisation de Upload File API depuis le navigateur.
- Programmatiquement comme mentionné dans la documentation.
En conséquence, le fichier PDF sera téléchargé sur le Cloud Storage
Extraire des images du document PDF téléchargé
Vous avez maintenant terminé avec la partie difficile d’extraire toutes les photos du pdf. Le code Python suivant vous permettra d’extraire rapidement toutes les images du document PDF téléchargé.
# Comment extraire des images de documents Word, de feuilles de calcul Excel, de présentations ou de documents PDF en Python.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Obtenez l'APP SID et la clé d'application à partir de https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Afficher les propriétés des images extraites
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Télécharger les images extraites
Une fois que vous avez extrait les images, vous pouvez les télécharger depuis le cloud à partir du tableau de bord ou par programme. Les images présentées ici sont extraites du document PDF présenté ci-dessus.
Extraction d’images à partir d’Excel, PPT ou Word Docs à l’aide de Python
De même, vous pouvez extraire toutes les images des documents Word, feuilles de calcul, présentations avec le code python exact mentionné ci-dessus pour le document PDF. Il vous suffit de changer le chemin du fichier avec le nom de document correct avec l’extension.
# Extrayez des images de documents Word, de feuilles de calcul Excel, de présentations en Python.
options.file_info.file_path = "documents/doc-with-images.docx"
# Modifiez simplement le chemin du document en fonction des besoins (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Extraire des images d’un document en ligne
Comment extraire des images d’un fichier ou d’un document en ligne gratuitement ? Groupdocs.Parser fournit un outil en ligne gratuit pour extraire des images de word en ligne, extraire toutes les images de pdf, enregistrer toutes les images dans un powerpoint ou extraire des images de xlsx python. Sélectionnez simplement le document dont vous souhaitez extraire les images jpg, png, jpeg ou gif.
Les outils Extract images from pdf online free, Extract images from excel online, Extract image from word online et Extract images from pptx online ont été développés à l’aide des API Groupdocs.Parser Python.
Conclusion
Dans cet article, nous avons appris comment extraire par programme des images de Word, Excel, PowerPoint, PDF et d’autres documents à l’aide de Python. Aucune différence dans le code, il suffit de changer le chemin et le type du document source.
Pour plus de fonctionnalités et pour en savoir plus sur l’API d’analyse de documents, visitez la documentation pour les articles qui contiennent également les exemples. La meilleure façon de tester les fonctionnalités mises en évidence est de découvrir les exemples d’exécution open source de GitHub. En cas de confusion, l’équipe d’assistance de GroupDocs se fera un plaisir de vous aider. Merci
poser une question
Si vous avez des questions concernant l’extraction d’images à partir de PDF, XLSX, PPTX ou Word DOCX à l’aide de Python, n’hésitez pas à nous contacter sur Free Support Forum
Voir également
- Extrayez toutes les images du PDF et extrayez les images du PDF en ligne à l’aide de Node.js
- Extraction automatisée de données à partir de PDF et extraction de données à partir de PDF python en ligne
- Extraire des images de PDF python et extraire des images de PDF acrobat en utilisant Python
- Comment extraire des données spécifiques d’un document Word à l’aide de l’API REST dans Node.js
- Extraire des données de PDF javascript et meilleur langage de programmation pour extraire des données de PDF
- Extraire des tables d’un document Word Python à l’aide de l’API REST en Python