Estrai pagine specifiche da PDF usando Python

Potrebbe essere necessario estrarre pagine specifiche da documenti PDF o potrebbe essere necessario suddividere documenti PDF di grandi dimensioni in parti più piccole. In qualità di sviluppatore Python, puoi facilmente estrarre pagine specifiche da documenti PDF in base ai numeri di pagina o a un intervallo di pagine a livello di codice. In questo articolo imparerai come estrarre pagine specifiche da documenti PDF utilizzando un’API REST in Python.

In questo articolo saranno trattati i seguenti argomenti:

API REST di Document Splitter e Python SDK
Estrai pagine specifiche da PDF utilizzando un’API REST
Estrai pagine per intervallo di pagine usando Python

API REST di Document Splitter e Python SDK

Per estrarre le pagine dai documenti PDF, utilizzerò l’API Python SDK of GroupDocs.Merger Cloud. È un Cloud SDK ricco di funzionalità e ad alte prestazioni utilizzato per unire più documenti in un unico documento. Consente inoltre di dividere un singolo documento in più documenti. L’SDK offre funzionalità per eliminare, scambiare, ruotare o modificare l’orientamento della pagina per un intero o un intervallo preferito di pagine ed eseguire facilmente altre manipolazioni per qualsiasi formato di file supportato come fogli di lavoro PDF, Word, Powerpoint e Excel. Attualmente fornisce anche SDK .NET, Java, PHP, Ruby, Android e Node.js come document merger family members per l’API Cloud.

Puoi installare GroupDocs.Merger-Cloud nel tuo progetto Python utilizzando il seguente comando nella console:

pip install groupdocs_merger_cloud

Ottieni il tuo ID cliente e il tuo segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Estrai pagine specifiche da PDF utilizzando l’API REST in Python

Puoi estrarre pagine specifiche da documenti PDF seguendo i semplici passaggi indicati di seguito:

Carica il file PDF nel Cloud
Estrai pagine specifiche per numero di pagina dal file PDF caricato
Scarica i file estratti

Carica il documento

Prima di tutto, carica il documento PDF multipagina sul Cloud utilizzando l’esempio di codice riportato di seguito:

# creare un'istanza dell'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# caricare file di esempio
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

Di conseguenza, il file PDF verrà caricato su Cloud Storage e sarà disponibile nella sezione file della dashboard.

Estrai pagine specifiche per numero di pagina usando Python

Si prega di seguire i passaggi indicati di seguito per estrarre una pagina specifica o più pagine da un documento PDF a livello di programmazione.

Crea un’istanza Document API.
Fornire SplitOptions
Imposta il percorso del file di input
Imposta il percorso della directory di output
Fornisci i numeri di pagina separati da virgole da estrarre
Imposta la modalità su Pagine
Crea SplitRequest
Ottieni risultati chiamando il metodo DocumentApi.split().

L’esempio di codice seguente mostra come estrarre le pagine fornendo numeri di pagina specifici da un documento PDF utilizzando un’API REST.

# inizializzazione dell'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# definire le opzioni di divisione
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# creare una richiesta divisa
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))

Estrai pagine specifiche da PDF usando Python

Scarica i file di pagina estratti

L’esempio di codice precedente salverà le pagine estratte in file PDF separati nel cloud. Puoi scaricarli utilizzando il seguente esempio di codice:

# inizializzazione dell'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# richiesta di download del file
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# sposta il file scaricato nella tua directory di lavoro
shutil.move(response, "C:\\Files\\")

Estrai pagine per intervallo di pagine usando Python

Si prega di seguire i passaggi indicati di seguito per estrarre le pagine da un documento PDF fornendo un intervallo di pagine a livello di codice.

Crea un’istanza Document API.
Fornire SplitOptions
Imposta il percorso del file di input
Imposta il percorso della directory di output
Fornisci l’intervallo di pagine impostando il numero di pagina iniziale e il numero di pagina finale da estrarre
Imposta la modalità su Pagine
Crea SplitRequest
Ottieni risultati chiamando il metodo DocumentApi.split().
Crea DownloadFileRequest
Scarica il file chiamando il metodo FileApi.download\file().

L’esempio di codice seguente mostra come estrarre le pagine fornendo un intervallo di pagine da un documento PDF utilizzando un’API REST. Si prega di seguire i passaggi menzionati in precedenza per caricare i file.

# inizializzazione dell'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# definire le opzioni di divisione
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# creare una richiesta divisa
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# mostra i risultati e scarica i file uno per uno
for data in result.documents:
    print("Document Url = " + str(data))
    
    # creare richiesta di file di download
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Sposta il file scaricato nella tua directory di lavoro
    shutil.move(response, "C:\\Files\\")

Estrai pagine per intervallo di pagine usando Python

Prova in linea

Prova il seguente strumento di divisione PDF online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/splitter/pdf

Conclusione

In questo articolo, hai imparato come estrarre pagine specifiche da documenti PDF sul cloud utilizzando Python. Hai anche imparato come caricare in modo programmatico il file PDF sul cloud e quindi scaricare i file estratti dal cloud. Puoi saperne di più su GroupDocs.Merger Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità, non esitate a contattarci sul forum.

Guarda anche

Unisci i file PDF utilizzando un’API REST

API REST di Document Splitter e Python SDK#

Estrai pagine specifiche da PDF utilizzando l’API REST in Python#

Carica il documento#

Estrai pagine specifiche per numero di pagina usando Python#

Scarica i file di pagina estratti#

Estrai pagine per intervallo di pagine usando Python#

Prova in linea#

Conclusione#

Guarda anche#