Extrahujte konkrétní stránky z PDF pomocí Pythonu

Možná budete muset extrahovat konkrétní stránky z dokumentů PDF nebo možná budete muset rozdělit velké dokumenty PDF na menší části. Jako vývojář Pythonu můžete snadno programově extrahovat konkrétní stránky z dokumentů PDF podle čísel stránek nebo podle rozsahu stránek. V tomto článku se dozvíte, jak extrahovat konkrétní stránky z dokumentů PDF pomocí REST API v Pythonu.

V tomto článku se budou zabývat následujícími tématy:

Rozdělovač dokumentů REST API a Python SDK
Extrahujte konkrétní stránky z PDF pomocí REST API
Extrahujte stránky podle rozsahu stránek pomocí Pythonu

Rozdělovač dokumentů REST API a Python SDK

Pro extrahování stránek z PDF dokumentů budu používat Python SDK of GroupDocs.Merger Cloud API. Jedná se o funkčně bohaté a vysoce výkonné Cloud SDK používané ke sloučení několika dokumentů do jednoho dokumentu. Umožňuje také rozdělit jeden dokument na více dokumentů. Sada SDK nabízí funkce pro odstranění, výměnu, otočení nebo změnu orientace stránky pro celý nebo preferovaný rozsah stránek a snadné provádění dalších manipulací pro všechny podporované formáty souborů, jako jsou listy PDF, Word, Powerpoint a Excel. V současné době poskytuje také sady .NET, Java, PHP, Ruby, Android a Node.js SDK jako členové rodiny sloučení dokumentů pro Cloud API.

GroupDocs.Merger-Cloud můžete nainstalovat do svého projektu Python pomocí následujícího příkazu v konzole:

pip install groupdocs_merger_cloud

Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID a tajemství, přidejte kód, jak je ukázáno níže:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahujte konkrétní stránky z PDF pomocí REST API v Pythonu

Z dokumentů PDF můžete extrahovat konkrétní stránky pomocí následujících jednoduchých kroků:

Nahrát soubor PDF do cloudu
Extrahovat konkrétní stránky podle čísel stránek z nahraného souboru PDF
Stáhnout rozbalené soubory

Nahrajte dokument

Nejprve nahrajte vícestránkový dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:

# vytvořit instanci API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# nahrát ukázkové soubory
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)

V důsledku toho bude soubor PDF nahrán do cloudového úložiště a bude dostupný v sekci souborů na vašem řídicím panelu.

Extrahujte konkrétní stránky podle čísel stránek pomocí Pythonu

Chcete-li programově extrahovat konkrétní stránku nebo více stránek z dokumentu PDF, postupujte podle níže uvedených kroků.

Vytvořte instanci Document API
Poskytněte SplitOptions
Nastavte cestu vstupního souboru
Nastavte cestu výstupního adresáře
Zadejte čísla stránek oddělených čárkami, které chcete extrahovat
Nastavte režim na Stránky
Vytvořit SplitRequest
Získejte výsledky voláním metody DocumentApi.split()

Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím konkrétních čísel stránek z dokumentu PDF pomocí REST API.

# inicializace api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)

# definovat možnosti rozdělení
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"

# vytvořit žádost o rozdělení
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)        

print("Documents count = " + str(len(result.documents)))

Extrahujte konkrétní stránky z PDF pomocí Pythonu

Stáhněte si extrahované soubory stránek

Výše uvedená ukázka kódu uloží extrahované stránky do samostatných souborů PDF v cloudu. Můžete si je stáhnout pomocí následující ukázky kódu:

# inicializace api
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# žádost o stažení souboru
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)

# přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\")

Extrahujte stránky podle rozsahu stránek pomocí Pythonu

Chcete-li extrahovat stránky z dokumentu PDF tak, že programově poskytnete rozsah stránek, postupujte podle níže uvedených kroků.

Vytvořte instanci Document API
Poskytněte SplitOptions
Nastavte cestu vstupního souboru
Nastavte cestu výstupního adresáře
Poskytněte rozsah stránek nastavením čísla úvodní stránky a čísla koncové stránky k extrakci
Nastavte režim na Stránky
Vytvořit SplitRequest
Získejte výsledky voláním metody DocumentApi.split()
Vytvořit DownloadFileRequest
Stáhněte soubor voláním metody FileApi.download\file()

Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím rozsahu stránek z dokumentu PDF pomocí REST API. Chcete-li nahrát soubory, postupujte podle výše uvedených kroků.

# inicializace api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""

# definovat možnosti rozdělení
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"

# vytvořit žádost o rozdělení
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)   

print("Documents count = " + str(len(result.documents)))

# zobrazit výsledky a stáhnout soubory jeden po druhém
for data in result.documents:
    print("Document Url = " + str(data))
    
    # vytvořit žádost o stažení souboru
    request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
    response = file_api.download_file(request)
    
    # Přesuňte stažený soubor do svého pracovního adresáře
    shutil.move(response, "C:\\Files\\")

Extrahujte stránky podle rozsahu stránek pomocí Pythonu

Vyzkoušejte online

Vyzkoušejte prosím následující bezplatný online nástroj na rozdělování PDF, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/splitter/pdf

Závěr

V tomto článku jste se naučili, jak extrahovat konkrétní stránky z dokumentů PDF v cloudu pomocí Pythonu. Také jste se naučili, jak programově nahrát soubor PDF do cloudu a poté stáhnout extrahované soubory z cloudu. Více o GroupDocs.Merger Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.

Viz také

Sloučit soubory PDF pomocí REST API

Rozdělovač dokumentů REST API a Python SDK#

Extrahujte konkrétní stránky z PDF pomocí REST API v Pythonu#

Nahrajte dokument#

Extrahujte konkrétní stránky podle čísel stránek pomocí Pythonu#

Stáhněte si extrahované soubory stránek#

Extrahujte stránky podle rozsahu stránek pomocí Pythonu#

Vyzkoušejte online#

Závěr#

Viz také#