Možná budete muset extrahovat konkrétní stránky z dokumentů PDF nebo možná budete muset rozdělit velké dokumenty PDF na menší části. Jako vývojář Pythonu můžete snadno programově extrahovat konkrétní stránky z dokumentů PDF podle čísel stránek nebo podle rozsahu stránek. V tomto článku se dozvíte, jak extrahovat konkrétní stránky z dokumentů PDF pomocí REST API v Pythonu.
V tomto článku se budou zabývat následujícími tématy:
- Rozdělovač dokumentů REST API a Python SDK
- Extrahujte konkrétní stránky z PDF pomocí REST API
- Extrahujte stránky podle rozsahu stránek pomocí Pythonu
Rozdělovač dokumentů REST API a Python SDK
Pro extrahování stránek z PDF dokumentů budu používat Python SDK of GroupDocs.Merger Cloud API. Jedná se o funkčně bohaté a vysoce výkonné Cloud SDK používané ke sloučení několika dokumentů do jednoho dokumentu. Umožňuje také rozdělit jeden dokument na více dokumentů. Sada SDK nabízí funkce pro odstranění, výměnu, otočení nebo změnu orientace stránky pro celý nebo preferovaný rozsah stránek a snadné provádění dalších manipulací pro všechny podporované formáty souborů, jako jsou listy PDF, Word, Powerpoint a Excel. V současné době poskytuje také sady .NET, Java, PHP, Ruby, Android a Node.js SDK jako členové rodiny sloučení dokumentů pro Cloud API.
GroupDocs.Merger-Cloud můžete nainstalovat do svého projektu Python pomocí následujícího příkazu v konzole:
pip install groupdocs_merger_cloud
Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID a tajemství, přidejte kód, jak je ukázáno níže:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_merger_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Extrahujte konkrétní stránky z PDF pomocí REST API v Pythonu
Z dokumentů PDF můžete extrahovat konkrétní stránky pomocí následujících jednoduchých kroků:
- Nahrát soubor PDF do cloudu
- Extrahovat konkrétní stránky podle čísel stránek z nahraného souboru PDF
- Stáhnout rozbalené soubory
Nahrajte dokument
Nejprve nahrajte vícestránkový dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:
# vytvořit instanci API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# nahrát ukázkové soubory
request = groupdocs_merger_cloud.UploadFileRequest("ten-pages.pdf", "C:\\Files\\ten-pages.pdf", my_storage)
response = file_api.upload_file(request)
V důsledku toho bude soubor PDF nahrán do cloudového úložiště a bude dostupný v sekci souborů na vašem řídicím panelu.
Extrahujte konkrétní stránky podle čísel stránek pomocí Pythonu
Chcete-li programově extrahovat konkrétní stránku nebo více stránek z dokumentu PDF, postupujte podle níže uvedených kroků.
- Vytvořte instanci Document API
- Poskytněte SplitOptions
- Nastavte cestu vstupního souboru
- Nastavte cestu výstupního adresáře
- Zadejte čísla stránek oddělených čárkami, které chcete extrahovat
- Nastavte režim na Stránky
- Vytvořit SplitRequest
- Získejte výsledky voláním metody DocumentApi.split()
Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím konkrétních čísel stránek z dokumentu PDF pomocí REST API.
# inicializace api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
# definovat možnosti rozdělení
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.pages = [1, 3]
options.mode = "Pages"
# vytvořit žádost o rozdělení
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
Stáhněte si extrahované soubory stránek
Výše uvedená ukázka kódu uloží extrahované stránky do samostatných souborů PDF v cloudu. Můžete si je stáhnout pomocí následující ukázky kódu:
# inicializace api
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# žádost o stažení souboru
request = groupdocs_merger_cloud.DownloadFileRequest("Output\\ten-pages_1.pdf", my_storage)
response = file_api.download_file(request)
# přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\")
Extrahujte stránky podle rozsahu stránek pomocí Pythonu
Chcete-li extrahovat stránky z dokumentu PDF tak, že programově poskytnete rozsah stránek, postupujte podle níže uvedených kroků.
- Vytvořte instanci Document API
- Poskytněte SplitOptions
- Nastavte cestu vstupního souboru
- Nastavte cestu výstupního adresáře
- Poskytněte rozsah stránek nastavením čísla úvodní stránky a čísla koncové stránky k extrakci
- Nastavte režim na Stránky
- Vytvořit SplitRequest
- Získejte výsledky voláním metody DocumentApi.split()
- Vytvořit DownloadFileRequest
- Stáhněte soubor voláním metody FileApi.download\file()
Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím rozsahu stránek z dokumentu PDF pomocí REST API. Chcete-li nahrát soubory, postupujte podle výše uvedených kroků.
# inicializace api
documentApi = groupdocs_merger_cloud.DocumentApi.from_config(configuration)
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
my_storage = ""
# definovat možnosti rozdělení
options = groupdocs_merger_cloud.SplitOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("ten-pages.pdf")
options.output_path = "Output"
options.start_page_number = 4
options.end_page_number = 7
options.mode = "Pages"
# vytvořit žádost o rozdělení
split_request = groupdocs_merger_cloud.SplitRequest(options)
result = documentApi.split(split_request)
print("Documents count = " + str(len(result.documents)))
# zobrazit výsledky a stáhnout soubory jeden po druhém
for data in result.documents:
print("Document Url = " + str(data))
# vytvořit žádost o stažení souboru
request = groupdocs_merger_cloud.DownloadFileRequest(data.path, my_storage)
response = file_api.download_file(request)
# Přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\")
Vyzkoušejte online
Vyzkoušejte prosím následující bezplatný online nástroj na rozdělování PDF, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/splitter/pdf
Závěr
V tomto článku jste se naučili, jak extrahovat konkrétní stránky z dokumentů PDF v cloudu pomocí Pythonu. Také jste se naučili, jak programově nahrát soubor PDF do cloudu a poté stáhnout extrahované soubory z cloudu. Více o GroupDocs.Merger Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.