Vous devrez peut-être extraire des images de vos documents PDF ou Word pour les réutiliser. Vous pouvez facilement extraire des images de documents PDF par programmation sur le cloud. Cet article explique comment extraire des images de documents PDF à l’aide d’une API REST en Python.
Les sujets suivants seront traités dans cet article :
- API REST de l’analyseur de documents et SDK Python
- Extraire des images d’un PDF à l’aide d’une API REST
- Enregistrer les images par plage de numéros de page à l’aide de l’API REST
- Obtenir des images à partir d’un document joint à l’aide de l’API REST
API REST de l’analyseur de documents et SDK Python
Pour extraire des images d’un document PDF, j’utiliserai l’API Python SDK of GroupDocs.Parser Cloud. Il vous permet d’analyser les données de tous les types de documents courants. Vous pouvez extraire du texte, des images et analyser des données par un modèle à l’aide du SDK. Il fournit également les SDK .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyseurs de documents pour l’API Cloud.
Vous pouvez installer GroupDocs.Parser Cloud sur votre projet Python avec pip (package installer for python) à l’aide de la commande suivante dans la console :
pip install groupdocs_parser_cloud
Veuillez obtenir votre ID client et votre secret client à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles. Une fois que vous avez votre ID client et votre secret, ajoutez le code comme indiqué ci-dessous :
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Extraire des images d’un PDF à l’aide d’une API REST en Python
Vous pouvez extraire des images de documents PDF en suivant les étapes simples mentionnées ci-dessous :
- Téléchargez le fichier PDF dans le Cloud
- Extraire des images de documents PDF à l’aide de Python
- Télécharger the extracted images
Télécharger le document
Tout d’abord, téléchargez le document PDF sur le Cloud en utilisant l’exemple de code ci-dessous :
# initialisation de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
Par conséquent, le fichier PDF téléchargé (sample.pdf) sera disponible dans la section fichiers de votre tableau de bord sur le cloud.
Extraire toutes les images d’un document PDF à l’aide de Python
Vous pouvez facilement extraire toutes les images du fichier PDF par programme en suivant les étapes mentionnées ci-dessous.
- Créer une instance de ParseApi
- Définir les options d’image
- Définir le chemin d’accès au fichier PDF
- Créer une demande d’images
- Obtenez des résultats en appelant la méthode ParseApi.images()
L’exemple de code suivant montre comment extraire toutes les images d’un document PDF à l’aide d’une API REST.
# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Télécharger les images extraites
L’exemple de code ci-dessus enregistrera les images extraites sur le cloud. Vous pouvez télécharger ces images en utilisant l’exemple de code ci-dessous :
# initialisation de l'API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# Télécharger l'image
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# Déplacez le fichier téléchargé dans votre répertoire de travail
shutil.move(response, "C:\\Files\\Images")
Enregistrer des images par numéros de page à partir de documents PDF à l’aide de Python
Vous pouvez facilement extraire les images de pages spécifiques d’un fichier PDF par programme en suivant les étapes mentionnées ci-dessous.
- Créer une instance de ParseApi
- Définir les options d’image
- Indiquez le chemin d’accès au fichier PDF
- Définir le numéro de la page de démarrage
- Définir le nombre de pages à extraire
- Créer une demande d’images
- Obtenez des résultats en appelant la méthode ParseApi.images()
L’exemple de code suivant montre comment extraire les images par plage de numéros de page à partir d’un document PDF à l’aide d’une API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les images extraites.
# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# définir la plage de pages
options.start_page_number = 1
options.count_pages_to_extract = 1
# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Obtenir des images à partir d’un document joint avec un PDF à l’aide de Python
Vous pouvez extraire les images d’un document à l’intérieur d’un conteneur, disponible en pièce jointe dans un fichier PDF par programmation en suivant les étapes mentionnées ci-dessous.
- Créer une instance de ParseApi
- Définir les options d’image
- Définir le chemin d’accès au fichier PDF
- Définir ContainerItemInfo
- Fournir le chemin relatif du document intérieur
- Définir le numéro de la page de démarrage
- Définir le nombre de pages à extraire
- Créer une demande d’images
- Obtenez des résultats en appelant la méthode ParseApi.images()
L’exemple de code suivant montre comment extraire les images d’un document à l’intérieur d’un document PDF à l’aide d’une API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les images extraites.
# initialisation de l'API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# définir les options d'image
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# définir un élément de conteneur
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# définir la plage de pages
options.start_page_number = 2
options.count_pages_to_extract = 1
# créer une demande
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Essayez en ligne
Veuillez essayer l’outil d’analyse PDF en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/parser/pdf
Conclusion
Dans cet article, vous avez appris à extraire des images de documents PDF sur le cloud. Cet article a également expliqué comment télécharger par programme un fichier PDF sur le cloud. Vous avez également appris à télécharger les images extraites à l’aide du SDK. Vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté, n’hésitez pas à nous contacter sur le forum.
Voir également
- Extraire du texte de documents PDF à l’aide d’une API REST en Python
- Une solution API REST pour analyser des documents et extraire des données
- Extraire des données d’un document Word Python à l’aide de l’API REST dans Node.js
- Extraire du texte spécifique d’un document Word et des tables d’extraction Python docx