Extraire des pages spécifiques du PDF

Vous devrez peut-être extraire des pages spécifiques de documents PDF ou diviser des documents PDF volumineux en parties plus petites. En tant que développeur Python, vous pouvez facilement extraire des pages spécifiques de documents PDF par numéros de page ou par plage de pages par programme. Dans cet article, vous apprendrez à extraire des pages spécifiques de documents PDF à l’aide d’une API REST en Python.

Les sujets suivants seront traités dans cet article :

API REST du séparateur de documents et SDK Python

Pour extraire des pages de documents PDF, j’utiliserai l’API Python SDK of GroupDocs.Merger Cloud. Il s’agit d’un SDK Cloud riche en fonctionnalités et hautes performances utilisé pour fusionner plusieurs documents en un seul document. Il vous permet également de diviser un seul document en plusieurs documents. Le SDK offre des fonctionnalités pour supprimer, échanger, faire pivoter ou modifier l’orientation de la page pour une plage entière ou préférée de pages et effectuer facilement d’autres manipulations pour tous les formats de fichiers pris en charge tels que les feuilles de calcul PDF, Word, Powerpoint et Excel. Actuellement, il fournit également les SDK .NET, Java, PHP, Ruby, Android et Node.js en tant que membres de la famille de fusion de documents pour l’API Cloud.

Vous pouvez installer GroupDocs.Merger-Cloud sur votre projet Python à l’aide de la commande suivante dans la console :

pip install groupdocs_merger_cloud

Veuillez obtenir votre ID client et votre secret client à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles. Une fois que vous avez votre identifiant et votre secret, ajoutez le code comme indiqué ci-dessous :

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extraire des pages spécifiques d’un PDF à l’aide de l’API REST en Python

Vous pouvez extraire des pages spécifiques de documents PDF en suivant les étapes simples mentionnées ci-dessous :

  1. Téléchargez le fichier PDF dans le Cloud
  2. Extraire des pages spécifiques par numéros de page du fichier PDF téléchargé
  3. Télécharger le(s) fichier(s) extrait(s)

Télécharger le document

Tout d’abord, téléchargez le document PDF multipage dans le Cloud en utilisant l’exemple de code ci-dessous :

# créer une instance de l'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# télécharger des exemples de fichiers
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

En conséquence, le fichier PDF sera téléchargé sur Cloud Storage et sera disponible dans la section des fichiers de votre tableau de bord.

Extraire des pages spécifiques par numéros de page à l’aide de Python

Veuillez suivre les étapes mentionnées ci-dessous pour extraire une page spécifique ou plusieurs pages d’un document PDF par programmation.

  • Créer une instance API Document
  • Fournir des options de fractionnement
  • Définir le chemin du fichier d’entrée
  • Définir le chemin du répertoire de sortie
  • Fournissez des numéros de page séparés par des virgules à extraire
  • Définir le mode sur Pages
  • Créer une demande fractionnée
  • Obtenez des résultats en appelant la méthode DocumentApi.split()

L’exemple de code suivant montre comment extraire des pages en fournissant des numéros de page spécifiques à partir d’un document PDF à l’aide d’une API REST.

# initialisation de l'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# définir les options de fractionnement
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# créer une demande fractionnée
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))
Extraire des pages spécifiques d'un PDF à l'aide de Python

Extraire des pages spécifiques d’un PDF à l’aide de Python

Télécharger les fichiers de page extraits

L’exemple de code ci-dessus enregistrera les pages extraites dans des fichiers PDF séparés sur le cloud. Vous pouvez les télécharger à l’aide de l’exemple de code suivant :

# initialisation de l'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# demande de téléchargement de fichier
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# déplacer le fichier téléchargé dans votre répertoire de travail
shutil.move(response, "C:\\Files\\")

Extraire les pages par plage de pages à l’aide de Python

Veuillez suivre les étapes mentionnées ci-dessous pour extraire des pages d’un document PDF en fournissant une plage de pages par programme.

  • Créer une instance API Document
  • Fournir des options de fractionnement
  • Définir le chemin du fichier d’entrée
  • Définir le chemin du répertoire de sortie
  • Fournir une plage de pages en définissant le numéro de page de début et le numéro de page de fin à extraire
  • Définir le mode sur Pages
  • Créer une demande fractionnée
  • Obtenez des résultats en appelant la méthode DocumentApi.split()
  • Créer une demande de téléchargement de fichier
  • Téléchargez le fichier en appelant la méthode FileApi.download\file()

L’exemple de code suivant montre comment extraire des pages en fournissant une plage de pages à partir d’un document PDF à l’aide d’une API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les fichiers.

# initialisation de l'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# définir les options de fractionnement
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# créer une demande fractionnée
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# afficher les résultats et télécharger les fichiers un par un
for data in result.documents:
    print("Document Url = " + str(data))
    
    # créer une demande de fichier de téléchargement
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Déplacez le fichier téléchargé dans votre répertoire de travail
    shutil.move(response, "C:\\Files\\")
Extraire les pages par plage de pages à l'aide de Python

Extraire les pages par plage de pages à l’aide de Python

Essayez en ligne

Veuillez essayer l’outil de fractionnement de PDF en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus. https://products.groupdocs.app/splitter/pdf

Conclusion

Dans cet article, vous avez appris à extraire des pages spécifiques de documents PDF sur le cloud à l’aide de Python. Vous avez également appris à télécharger par programme le fichier PDF sur le cloud, puis à télécharger les fichiers extraits du cloud. Vous pouvez en savoir plus sur l’API GroupDocs.Merger Cloud en utilisant la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. En cas d’ambiguïté, n’hésitez pas à nous contacter sur le forum.

Voir également