Comment extraire des pages d'un fichier PDF en ligne en Python

Extraire des pages d’un fichier PDF en ligne en Python

Dans certains cas, vous devrez peut-être extraire des pages PDF de documents PDF ou séparer des documents PDF volumineux en fichiers PDF plus petits. En tant que développeur Python, vous pouvez facilement extraire des pages spécifiques de fichiers PDF en ligne ou extraire des pages PDF par plage de pages par programmation. Dans cet article, vous apprendrez à extraire des pages d’un fichier PDF en ligne en Python à l’aide de l’API REST.

Les sujets suivants seront abordés dans cet article :

API REST de l’extracteur de documents et SDK Python

Afin d’extraire des pages PDF à partir de fichiers PDF en ligne, j’utiliserai le Python SDK de GroupDocs.Merger Cloud API. Il s’agit d’un SDK Cloud riche en fonctionnalités et hautes performances. Cette API Python vous permet d’extraire des pages PDF d’un seul document dans plusieurs fichiers. Le SDK offre des fonctionnalités pour réorganiser, supprimer, échanger, faire pivoter ou modifier l’orientation de la page pour une plage de pages entière ou préférée. Il prend également en charge d’autres manipulations pour tous les formats de fichiers pris en charge, tels que les feuilles de calcul PDF, Word, PowerPoint, Excel, etc. Actuellement, il prend en charge les SDK .NET, Java, PHP, Ruby, Android et Node.js en tant que document merger membres de la famille pour l’API Cloud.

Vous pouvez installer GroupDocs.Merger-Cloud dans votre projet Python à l’aide de la commande suivante dans la console :

pip install groupdocs_merger_cloud

Veuillez obtenir votre ID client et votre secret client à partir du tableau de bord avant de commencer à suivre les étapes et les exemples de code disponibles. Une fois que vous avez votre identifiant et votre secret, ajoutez le code comme indiqué ci-dessous :

# Importer le SDK de fusion de groupdocs
import groupdocs_merger_cloud

# Obtenez app_sid & app_key depuis https://dashboard.groupdocs.cloud après une inscription gratuite.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obtenir les configurations de l'API de fichier 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Comment extraire des pages spécifiques d’un PDF en Python à l’aide de l’API REST

Notre API de fractionnement de PDF vous permet de prévisualiser les pages que vous souhaitez fractionner. Vous pouvez sélectionner des pages en fournissant simplement le nombre de pages que vous souhaitez extraire. Divisez instantanément votre PDF en pages individuelles ou extrayez des pages spécifiques d’un nouveau document PDF. Extrayez des pages PDF à partir de fichiers PDF en ligne en suivant les étapes simples mentionnées ci-dessous :

  1. Téléchargez le fichier PDF dans le Cloud.
  2. Extrait Pages PDF par numéros de page en Python.
  3. Télécharger les fichiers extraits.

Télécharger le document

Tout d’abord, téléchargez le document PDF multipage sur le Cloud à l’aide de l’extrait de code ci-dessous :

# Téléchargez le fichier PDF sur le stockage en nuage
# Créer une instance de l'API de fichier
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Appeler la demande de téléchargement de fichier
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Téléchargez le fichier PDF dans le cloud
response = file_api.upload_file(request)
print(response.uploaded)

En conséquence, le fichier PDF sera téléchargé sur Cloud Storage et sera disponible dans la section des fichiers de votre tableau de bord. Nous supprimons définitivement tous vos fichiers du cloud dans les 24 heures suivant le téléchargement.

Extraire des pages spécifiques par numéros de page à l’aide de Python

Pour extraire une page spécifique ou plusieurs pages d’un document PDF par programme, suivez les étapes mentionnées ci-dessous :

  • Tout d’abord, créez une instance PagesApi
  • Deuxièmement, fournissez l’instance ExtractOptions
  • Maintenant, définissez le chemin du fichier d’entrée avec l’instance FileInfo
  • Ensuite, définissez le chemin du répertoire de sortie
  • Ensuite, fournissez des numéros de page séparés par des virgules pour extraire
  • Ensuite, réglez le mode sur Pages
  • Ensuite, créez une instance ExtractRequest
  • Enfin, obtenez des résultats en appelant la classe pagesApi.extract()

L’exemple de code suivant montre comment extraire des pages en fournissant des numéros de page spécifiques à partir d’un document PDF à l’aide de l’API REST :

# Comment extraire des pages spécifiques d'un PDF en Python à l'aide de l'API REST
try:
    # Créer une instance de l'API Pages
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Téléchargez le fichier de pages PDF extraites

L’exemple de code ci-dessus enregistrera les pages extraites dans des fichiers PDF séparés sur le cloud. Vous pouvez les télécharger à l’aide de l’exemple de code suivant :

# Initialisation de l'API pour télécharger le fichier converti
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Créer une demande de fichier de téléchargement
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Télécharger le fichier converti
response = file_api.download_file(request)

# Déplacez le fichier téléchargé dans votre répertoire
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Extraire des pages d’un PDF par plage de pages en Python à l’aide de l’API REST

Veuillez suivre les étapes mentionnées ci-dessous pour extraire des pages d’un document PDF en fournissant une plage de pages par programmation.

  • Tout d’abord, créez une instance PagesApi
  • Ensuite, définissez ExtractOptions
  • Définir le chemin du fichier d’entrée avec l’instance FileInfo
  • Ensuite, définissez le chemin du répertoire de sortie
  • Fournissez une plage de pages en définissant le numéro de page de début et le numéro de page de fin à extraire
  • Maintenant, définissez l’intervalle de mode sur Pages
  • Définissez rangemode sur EvenPages ou OddPages
  • Ensuite, créez une instance ExtractRequest
  • Enfin, obtenez des résultats en appelant la méthode pagesApi.extract()

L’exemple de code suivant montre comment extraire des pages en fournissant une plage de pages à partir d’un document PDF à l’aide de l’API REST. Veuillez suivre les étapes mentionnées précédemment pour télécharger les fichiers.

# Comment extraire des pages d'un PDF par plage de pages en Python à l'aide de l'API REST
try:
    # Créer une instance de l'API Document
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Extracteur de pages PDF en ligne gratuit

Comment extraire des pages d’un pdf gratuitement ? Veuillez essayer l’outil d’extraction PDF en ligne gratuit suivant, qui est développé à l’aide de l’API ci-dessus.

Résumé

Cela nous amène à la conclusion du billet de blog. J’espère que vous avez appris :

  • comment extraire des pages spécifiques de documents PDF en Python ;
  • téléchargez par programme le fichier PDF, puis téléchargez les fichiers extraits du cloud ;
  • comment extraire des pages de fichiers PDF à l’aide d’une plage de pages à l’aide de Python ;

Vous pouvez en savoir plus sur l’API GroupDocs.Merger Cloud en utilisant la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur.

Sur notre page de démarrage, vous pouvez découvrir plus de détails.

De plus, Groupdocs.cloud est continuellement mis à jour avec de nouveaux sujets. Par conséquent, restez à jour sur les informations les plus récentes sur les API.

poser une question

Vous pouvez poser vos questions sur l’API du logiciel d’extraction de page PDF, via notre support gratuit Forum

FAQ

Comment extraire des pages d’un fichier PDF en Python ?

Veuillez suivre ce lien pour découvrir l’extrait de code Python sur la façon d’extraire des pages de fichiers PDF en Python.

Comment extraire des pages de documents PDF en ligne à l’aide de l’API REST ?

Créez une instance de PagesApi, définissez les valeurs de ExtractOptions et appelez la méthode pagesApi.extract() avec ExtractRequest pour enregistrer les pages sélectionnées du fichier PDF en ligne.

Comment installer une bibliothèque de téléchargement gratuit d’extracteur de page PDF ?

Un moyen simple d’extraire des pages d’un PDF consiste à utiliser le SDK Python. Vous pouvez installer la bibliothèque Python d’extraction de PDF pour extraire plusieurs pages de fichiers PDF par programme.

Comment extraire des pages PDF hors ligne dans Windows ?

Veuillez visiter ce lien pour télécharger le logiciel d’extraction de PDF pour Windows. Ce logiciel de téléchargement gratuit d’extraction de PDF divisera rapidement les pages PDF dans Windows, en un seul clic.

Voir également