Come estrarre pagine da file PDF online in Python

Estrai pagine da file PDF online in Python

In alcuni casi, potrebbe essere necessario estrarre pagine PDF da documenti PDF o potrebbe essere necessario separare documenti PDF di grandi dimensioni in file PDF più piccoli. Come sviluppatore Python, puoi facilmente estrarre pagine specifiche da file PDF online o estrarre pagine PDF per intervallo di pagine a livello di codice. In questo articolo imparerai come estrarre pagine da file PDF online in Python utilizzando l’API REST.

In questo articolo verranno trattati i seguenti argomenti:

API REST dell’estrattore di documenti e SDK Python

Per estrarre pagine PDF da file PDF online, utilizzerò Python SDK dell’API GroupDocs.Merger Cloud. È un Cloud SDK ricco di funzionalità e ad alte prestazioni. Questa API Python ti consente di estrarre pagine PDF da un singolo documento in più file. L’SDK offre funzionalità per riorganizzare, eliminare, scambiare, ruotare o modificare l’orientamento della pagina per un intervallo di pagine intero o preferito. Supporta anche altre manipolazioni per qualsiasi formato di file supportato come PDF, Word, PowerPoint, fogli di lavoro Excel, ecc. Attualmente supporta gli SDK .NET, Java, PHP, Ruby, Android e Node.js come documento merger membri della famiglia per l’API Cloud.

Puoi installare GroupDocs.Merger-Cloud nel tuo progetto Python usando il seguente comando nella console:

pip install groupdocs_merger_cloud

Si prega di ottenere l’ID cliente e il segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:

# Importa l'SDK di fusione di groupdocs
import groupdocs_merger_cloud

# Ottieni app_sid e app_key da https://dashboard.groupdocs.cloud dopo la registrazione gratuita.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Ottieni le configurazioni dell'API File 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Come estrarre pagine specifiche da PDF in Python utilizzando l’API REST

La nostra API PDF splitter ti consente di visualizzare in anteprima le pagine che desideri dividere. Puoi selezionare le pagine semplicemente fornendo il numero di pagine che desideri estrarre. Dividi istantaneamente il tuo PDF in singole pagine o estrai pagine specifiche da un nuovo documento PDF. Estrai pagine PDF da file PDF online seguendo i semplici passaggi indicati di seguito:

  1. Carica il file PDF sul Cloud.
  2. Estratto Pagine PDF per numero di pagina in Python.
  3. Scarica i file estratti.

Carica il documento

Prima di tutto, carica il documento PDF multipagina sul Cloud utilizzando lo snippet di codice indicato di seguito:

# Carica il file PDF nell'archivio cloud
# Crea un'istanza dell'API file
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Chiama la richiesta di caricamento del file
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Carica il file PDF nel cloud
response = file_api.upload_file(request)
print(response.uploaded)

Di conseguenza, il file PDF verrà caricato su Cloud Storage e sarà disponibile nella sezione file della dashboard. Eliminiamo tutti i tuoi file in modo permanente dal cloud entro 24 ore dal caricamento.

Estrai pagine specifiche per numero di pagina usando Python

Per estrarre una pagina specifica o più pagine da un documento PDF a livello di programmazione, seguire i passaggi indicati di seguito:

  • Innanzitutto, crea un’istanza PagesApi.
  • In secondo luogo, fornire l’istanza di ExtractOptions
  • Ora imposta il percorso del file di input con l’istanza di FileInfo
  • Successivamente, imposta il percorso della directory di output
  • Quindi, fornisci i numeri di pagina separati da virgole da estrarre
  • Successivamente, imposta la modalità su Pagine
  • Successivamente, crea un’istanza di ExtractRequest
  • Infine, ottieni risultati chiamando la classe pagesApi.extract().

Il seguente esempio di codice mostra come estrarre le pagine fornendo numeri di pagina specifici dal documento PDF utilizzando l’API REST:

# Come estrarre pagine specifiche da PDF in Python utilizzando l'API REST
try:
    # Crea un'istanza dell'API Pages
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Scarica il file delle pagine PDF estratte

L’esempio di codice precedente salverà le pagine estratte in file PDF separati nel cloud. Puoi scaricarli utilizzando il seguente esempio di codice:

# Inizializzazione dell'API per scaricare il file convertito
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Crea richiesta di download del file
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Scarica il file convertito
response = file_api.download_file(request)

# Sposta il file scaricato nella tua directory
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Estrai pagine da PDF per intervallo di pagine in Python utilizzando l’API REST

Si prega di seguire i passaggi indicati di seguito per estrarre le pagine da un documento PDF fornendo un intervallo di pagine a livello di codice.

  • Innanzitutto, crea un’istanza PagesApi.
  • Successivamente, imposta ExtractOptions
  • Imposta il percorso del file di input con l’istanza FileInfo
  • Successivamente, imposta il percorso della directory di output
  • Fornisci un intervallo di pagine impostando il numero della pagina iniziale e il numero della pagina finale da estrarre
  • Ora imposta l’intervallo di modalità su Pagine
  • Imposta rangemode su EvenPages o OddPages
  • Successivamente, crea un’istanza di ExtractRequest
  • Infine, ottieni risultati chiamando il metodo pagesApi.extract().

L’esempio di codice seguente mostra come estrarre le pagine fornendo l’intervallo di pagine dal documento PDF utilizzando l’API REST. Si prega di seguire i passaggi menzionati in precedenza per caricare i file.

# Come estrarre pagine da PDF per intervallo di pagine in Python utilizzando l'API REST
try:
    # Crea un'istanza dell'API del documento
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Estrattore di pagine PDF online gratuito

Come estrarre pagine da pdf gratis? Prova il seguente strumento di estrazione PDF online gratuito, sviluppato utilizzando l’API di cui sopra.

Riassumendo

Questo ci porta alla conclusione del post sul blog. Spero che tu abbia imparato:

  • come estrarre pagine specifiche da documenti PDF in Python;
  • caricare in modo programmatico il file PDF e quindi scaricare i file estratti dal cloud;
  • come estrarre pagine di file PDF utilizzando l’intervallo di pagine utilizzando Python;

Puoi saperne di più su GroupDocs.Merger Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser.

Nella nostra pagina introduttiva, potresti scoprire maggiori dettagli.

Inoltre, Groupdocs.cloud viene continuamente aggiornato con nuovi argomenti. Di conseguenza, rimani aggiornato sulle informazioni più recenti sulle API.

Fai una domanda

Puoi porre le tue domande sull’API del software di estrazione di pagine PDF, tramite il nostro supporto gratuito Forum

Domande frequenti

Come estrarre pagine da file PDF in Python?

Si prega di seguire questo link per imparare il frammento di codice Python su come estrarre pagine da file PDF in Python.

Come estrarre pagine da documenti PDF online utilizzando l’API REST?

Crea un’istanza di PagesApi, imposta i valori di ExtractOptions e richiama il metodo pagesApi.extract() con ExtractRequest per salvare online le pagine selezionate del file PDF.

Come installare una libreria di download gratuito dell’estrattore di pagine PDF?

Un modo semplice per estrarre pagine da PDF è usare Python SDK. È possibile installare la libreria Python dell’estrattore PDF per estrarre più pagine dai file PDF in modo programmatico.

Come posso estrarre le pagine PDF offline in Windows?

Visita questo collegamento per scaricare il software di estrazione PDF per Windows. Questo software di download gratuito dell’estrattore PDF dividerà rapidamente le pagine PDF in Windows, con un solo clic.

Guarda anche