Potrebbe essere necessario estrarre pagine specifiche da documenti PDF o potrebbe essere necessario suddividere documenti PDF di grandi dimensioni in parti più piccole. In qualità di sviluppatore Python, puoi facilmente estrarre pagine specifiche da documenti PDF in base ai numeri di pagina o a un intervallo di pagine a livello di codice. In questo articolo imparerai come estrarre pagine specifiche da documenti PDF utilizzando un’API REST in Python.
In questo articolo saranno trattati i seguenti argomenti:
- API REST di Document Splitter e Python SDK
- Estrai pagine specifiche da PDF utilizzando un’API REST
- Estrai pagine per intervallo di pagine usando Python
API REST di Document Splitter e Python SDK
Per estrarre le pagine dai documenti PDF, utilizzerò l’API Python SDK of GroupDocs.Merger Cloud. È un Cloud SDK ricco di funzionalità e ad alte prestazioni utilizzato per unire più documenti in un unico documento. Consente inoltre di dividere un singolo documento in più documenti. L’SDK offre funzionalità per eliminare, scambiare, ruotare o modificare l’orientamento della pagina per un intero o un intervallo preferito di pagine ed eseguire facilmente altre manipolazioni per qualsiasi formato di file supportato come fogli di lavoro PDF, Word, Powerpoint e Excel. Attualmente fornisce anche SDK .NET, Java, PHP, Ruby, Android e Node.js come document merger family members per l’API Cloud.
Puoi installare GroupDocs.Merger-Cloud nel tuo progetto Python utilizzando il seguente comando nella console:
pip install groupdocs_merger_cloud
Ottieni il tuo ID cliente e il tuo segreto cliente dalla dashboard prima di iniziare a seguire i passaggi e gli esempi di codice disponibili. Una volta che hai il tuo ID e segreto, aggiungi il codice come mostrato di seguito:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Estrai pagine specifiche da PDF utilizzando l’API REST in Python
Puoi estrarre pagine specifiche da documenti PDF seguendo i semplici passaggi indicati di seguito:
- Carica il file PDF nel Cloud
- Estrai pagine specifiche per numero di pagina dal file PDF caricato
- Scarica i file estratti
Carica il documento
Prima di tutto, carica il documento PDF multipagina sul Cloud utilizzando l’esempio di codice riportato di seguito:
# creare un'istanza dell'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# caricare file di esempio
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)
Di conseguenza, il file PDF verrà caricato su Cloud Storage e sarà disponibile nella sezione file della dashboard.
Estrai pagine specifiche per numero di pagina usando Python
Si prega di seguire i passaggi indicati di seguito per estrarre una pagina specifica o più pagine da un documento PDF a livello di programmazione.
- Crea un’istanza Document API.
- Fornire SplitOptions
- Imposta il percorso del file di input
- Imposta il percorso della directory di output
- Fornisci i numeri di pagina separati da virgole da estrarre
- Imposta la modalità su Pagine
- Crea SplitRequest
- Ottieni risultati chiamando il metodo DocumentApi.split().
L’esempio di codice seguente mostra come estrarre le pagine fornendo numeri di pagina specifici da un documento PDF utilizzando un’API REST.
# inizializzazione dell'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
# definire le opzioni di divisione
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"
# creare una richiesta divisa
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
Scarica i file di pagina estratti
L’esempio di codice precedente salverà le pagine estratte in file PDF separati nel cloud. Puoi scaricarli utilizzando il seguente esempio di codice:
# inizializzazione dell'API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# richiesta di download del file
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)
# sposta il file scaricato nella tua directory di lavoro
shutil.move(response, "C:\\Files\\")
Estrai pagine per intervallo di pagine usando Python
Si prega di seguire i passaggi indicati di seguito per estrarre le pagine da un documento PDF fornendo un intervallo di pagine a livello di codice.
- Crea un’istanza Document API.
- Fornire SplitOptions
- Imposta il percorso del file di input
- Imposta il percorso della directory di output
- Fornisci l’intervallo di pagine impostando il numero di pagina iniziale e il numero di pagina finale da estrarre
- Imposta la modalità su Pagine
- Crea SplitRequest
- Ottieni risultati chiamando il metodo DocumentApi.split().
- Crea DownloadFileRequest
- Scarica il file chiamando il metodo FileApi.download\file().
L’esempio di codice seguente mostra come estrarre le pagine fornendo un intervallo di pagine da un documento PDF utilizzando un’API REST. Si prega di seguire i passaggi menzionati in precedenza per caricare i file.
# inizializzazione dell'API
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# definire le opzioni di divisione
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"
# creare una richiesta divisa
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
# mostra i risultati e scarica i file uno per uno
for data in result.documents:
print("Document Url = " + str(data))
# creare richiesta di file di download
request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
response = file_api.download_file(request)
# Sposta il file scaricato nella tua directory di lavoro
shutil.move(response, "C:\\Files\\")
Prova in linea
Prova il seguente strumento di divisione PDF online gratuito, sviluppato utilizzando l’API di cui sopra. https://products.groupdocs.app/splitter/pdf
Conclusione
In questo articolo, hai imparato come estrarre pagine specifiche da documenti PDF sul cloud utilizzando Python. Hai anche imparato come caricare in modo programmatico il file PDF sul cloud e quindi scaricare i file estratti dal cloud. Puoi saperne di più su GroupDocs.Merger Cloud API utilizzando la documentazione. Forniamo anche una sezione Riferimento API che ti consente di visualizzare e interagire con le nostre API direttamente attraverso il browser. In caso di ambiguità, non esitate a contattarci sul forum.