Extraire des images de documents PDF à l'aide d'une API REST en Python

Vous devrez peut-être extraire des images de vos documents PDF ou Word pour les réutiliser. Vous pouvez facilement extraire des images de documents PDF par programmation sur le cloud. Cet article explique comment extraire des images de documents PDF à l’aide d’une API REST en Python.

Les sujets suivants seront traités dans cet article :

API REST de l’analyseur de documents et SDK Python
Extraire des images d’un PDF à l’aide d’une API REST
Enregistrer les images par plage de numéros de page à l’aide de l’API REST
Obtenir des images à partir d’un document joint à l’aide de l’API REST

API REST de l’analyseur de documents et SDK Python

Pour extraire des images d’un document PDF, j’utiliserai l’API Python SDK of GroupDocs.Parser Cloud. Il vous permet d’analyser les données de tous les types de documents courants. Vous pouvez extraire du texte, des images et analyser des données par un modèle à l’aide du SDK. Il fournit également les SDK .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyseurs de documents pour l’API Cloud.

Vous pouvez installer GroupDocs.Parser Cloud sur votre projet Python avec pip (package installer for python) à l’aide de la commande suivante dans la console :

pip install groupdocs_parser_cloud

Veuillez obtenir votre ID client et votre secret client à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles. Une fois que vous avez votre ID client et votre secret, ajoutez le code comme indiqué ci-dessous :

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraire des images d’un PDF à l’aide d’une API REST en Python

Vous pouvez extraire des images de documents PDF en suivant les étapes simples mentionnées ci-dessous :

Téléchargez le fichier PDF dans le Cloud
Extraire des images de documents PDF à l’aide de Python
Télécharger the extracted images

Télécharger le document

Tout d’abord, téléchargez le document PDF sur le Cloud en utilisant l’exemple de code ci-dessous :

# initialisation de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Par conséquent, le fichier PDF téléchargé (sample.pdf) sera disponible dans la section fichiers de votre tableau de bord sur le cloud.

Extraire toutes les images d’un document PDF à l’aide de Python

Vous pouvez facilement extraire toutes les images du fichier PDF par programme en suivant les étapes mentionnées ci-dessous.

Créer une instance de ParseApi
Définir les options d’image
Définir le chemin d’accès au fichier PDF
Créer une demande d’images
Obtenez des résultats en appelant la méthode ParseApi.images()

L’exemple de code suivant montre comment extraire toutes les images d’un document PDF à l’aide d’une API REST.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Extraire toutes les images du document PDF.

Télécharger les images extraites

L’exemple de code ci-dessus enregistrera les images extraites sur le cloud. Vous pouvez télécharger ces images en utilisant l’exemple de code ci-dessous :

# initialisation de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Télécharger l'image 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Déplacez le fichier téléchargé dans votre répertoire de travail
shutil.move(response, "C:\\Files\\Images")

Enregistrer des images par numéros de page à partir de documents PDF à l’aide de Python

Vous pouvez facilement extraire les images de pages spécifiques d’un fichier PDF par programme en suivant les étapes mentionnées ci-dessous.

Créer une instance de ParseApi
Définir les options d’image
Indiquez le chemin d’accès au fichier PDF
Définir le numéro de la page de démarrage
Définir le nombre de pages à extraire
Créer une demande d’images
Obtenez des résultats en appelant la méthode ParseApi.images()

L’exemple de code suivant montre comment extraire les images par plage de numéros de page à partir d’un document PDF à l’aide d’une API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les images extraites.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# définir la plage de pages
options.start_page_number = 1
options.count_pages_to_extract = 1

# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Extrayez des images par plage de numéros de page à partir d'un document PDF. — Extrayez des images par plage de numéros de page à partir d’un document PDF.

Obtenir des images à partir d’un document joint avec un PDF à l’aide de Python

Vous pouvez extraire les images d’un document à l’intérieur d’un conteneur, disponible en pièce jointe dans un fichier PDF par programmation en suivant les étapes mentionnées ci-dessous.

Créer une instance de ParseApi
Définir les options d’image
Définir le chemin d’accès au fichier PDF
Définir ContainerItemInfo
Fournir le chemin relatif du document intérieur
Définir le numéro de la page de démarrage
Définir le nombre de pages à extraire
Créer une demande d’images
Obtenez des résultats en appelant la méthode ParseApi.images()

L’exemple de code suivant montre comment extraire les images d’un document à l’intérieur d’un document PDF à l’aide d’une API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les images extraites.

# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# définir un élément de conteneur
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# définir la plage de pages
options.start_page_number = 2
options.count_pages_to_extract = 1

# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))

Extraire des images d'un document joint dans un document PDF — Extraire les images du document joint au document PDF.

Essayez en ligne

Veuillez essayer l’outil d’analyse PDF en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/parser/pdf

Conclusion

Dans cet article, vous avez appris à extraire des images de documents PDF sur le cloud. Cet article a également expliqué comment télécharger par programme un fichier PDF sur le cloud. Vous avez également appris à télécharger les images extraites à l’aide du SDK. Vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté, n’hésitez pas à nous contacter sur le forum.

Extraire des images de documents PDF à l'aide de Python

API REST de l’analyseur de documents et SDK Python

Extraire des images d’un PDF à l’aide d’une API REST en Python

Télécharger le document

Extraire toutes les images d’un document PDF à l’aide de Python

Télécharger les images extraites

Enregistrer des images par numéros de page à partir de documents PDF à l’aide de Python

Obtenir des images à partir d’un document joint avec un PDF à l’aide de Python

Essayez en ligne

Conclusion

Voir également

API REST de l’analyseur de documents et SDK Python#

Extraire des images d’un PDF à l’aide d’une API REST en Python#

Télécharger le document#

Extraire toutes les images d’un document PDF à l’aide de Python#

Télécharger les images extraites#

Enregistrer des images par numéros de page à partir de documents PDF à l’aide de Python#

Obtenir des images à partir d’un document joint avec un PDF à l’aide de Python#

Essayez en ligne#

Conclusion#

Voir également#

API REST de l’analyseur de documents et SDK Python

Extraire des images d’un PDF à l’aide d’une API REST en Python

Télécharger le document

Extraire toutes les images d’un document PDF à l’aide de Python

Télécharger les images extraites

Enregistrer des images par numéros de page à partir de documents PDF à l’aide de Python

Obtenir des images à partir d’un document joint avec un PDF à l’aide de Python

Essayez en ligne

Conclusion

Voir également