Jak extrahovat stránky ze souboru PDF online v Pythonu

Extrahujte stránky ze souboru PDF Online v Pythonu

V některých případech může být nutné extrahovat stránky PDF z dokumentů PDF nebo může být nutné rozdělit velké dokumenty PDF na menší soubory PDF. Jako vývojář Pythonu můžete snadno extrahovat konkrétní stránky ze souborů PDF online nebo extrahovat stránky PDF podle rozsahu stránek programově. V tomto článku se dozvíte, jak extrahovat stránky ze souboru PDF online v Pythonu pomocí REST API.

V tomto článku se budeme zabývat následujícími tématy:

Document Extractor REST API a Python SDK

K extrahování stránek PDF ze souborů PDF online budu používat Python SDK GroupDocs.Merger Cloud API. Jedná se o funkčně bohaté a vysoce výkonné Cloud SDK. Toto Python API umožňuje extrahovat stránky PDF z jednoho dokumentu do více souborů. SDK nabízí funkce pro změnu uspořádání, odstranění, výměnu, otočení nebo změnu orientace stránky pro celý nebo preferovaný rozsah stránek. Podporuje také další manipulace pro všechny podporované formáty souborů, jako jsou PDF, Word, PowerPoint, pracovní listy Excel atd. V současné době jako dokument podporuje sady SDK .NET, Java, PHP, Ruby, Android a Node.js sloučení členové rodiny pro Cloud API.

GroupDocs.Merger-Cloud můžete nainstalovat do svého projektu Python pomocí následujícího příkazu v konzole:

pip install groupdocs_merger_cloud

Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID a tajemství, přidejte kód, jak je ukázáno níže:

# Importujte sadu SDK pro sloučení skupinových dokumentů
import groupdocs_merger_cloud

# Získejte app_sid & app_key z https://dashboard.groupdocs.cloud po bezplatné registraci.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Získejte konfigurace API souboru 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Jak extrahovat konkrétní stránky z PDF v Pythonu pomocí REST API

Naše API rozdělovače PDF vám umožňuje zobrazit náhled stránek, které chcete rozdělit. Stránky můžete vybrat pouhým zadáním počtu stránek, které chcete extrahovat. Okamžitě rozdělte svůj PDF na jednotlivé stránky nebo extrahujte konkrétní stránky z nového dokumentu PDF. Extrahujte stránky PDF ze souborů PDF online podle jednoduchých kroků uvedených níže:

  1. Nahrát soubor PDF do cloudu.
  2. Výpis Stránky PDF podle čísel stránek v Pythonu.
  3. Stáhnout rozbalené soubory.

Nahrajte dokument

Nejprve nahrajte vícestránkový dokument PDF do cloudu pomocí fragmentu kódu uvedeného níže:

# Nahrajte soubor PDF do cloudového úložiště
# Vytvořte instanci souborového API
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Zavolejte žádost o nahrání souboru
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# Nahrajte soubor PDF do cloudu
response = file_api.upload_file(request)
print(response.uploaded)

V důsledku toho bude soubor PDF nahrán do cloudového úložiště a bude dostupný v sekci souborů na vašem řídicím panelu. Všechny vaše soubory trvale smažeme z cloudu do 24 hodin po nahrání.

Extrahujte konkrétní stránky podle čísel stránek pomocí Pythonu

Chcete-li z dokumentu PDF programově extrahovat konkrétní stránku nebo více stránek, postupujte podle následujících kroků:

  • Nejprve vytvořte instanci PagesApi
  • Za druhé poskytněte instanci ExtractOptions
  • Nyní nastavte cestu vstupního souboru pomocí instance FileInfo
  • Dále nastavte cestu výstupního adresáře
  • Poté zadejte čísla stránek oddělených čárkami, které chcete extrahovat
  • Dále nastavte režim na Stránky
  • Dále vytvořte instanci ExtractRequest
  • Nakonec získáte výsledky voláním třídy pagesApi.extract()

Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím konkrétních čísel stránek z dokumentu PDF pomocí REST API:

# Jak extrahovat konkrétní stránky z PDF v Pythonu pomocí REST API
try:
    # Vytvořte instanci rozhraní API stránek
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Stáhněte si extrahovaný soubor stránek PDF

Výše uvedená ukázka kódu uloží extrahované stránky do samostatných souborů PDF v cloudu. Můžete si je stáhnout pomocí následující ukázky kódu:

# Inicializace API pro stažení převedeného souboru
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# Vytvořit požadavek na stažení souboru
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# Stáhnout převedený soubor
response = file_api.download_file(request)

# Přesuňte stažený soubor do svého adresáře
shutil.move(response, "H:\\groupdocs-cloud-data\\")

Extrahujte stránky z PDF podle rozsahu stránek v Pythonu pomocí REST API

Chcete-li extrahovat stránky z dokumentu PDF tak, že programově poskytnete rozsah stránek, postupujte podle níže uvedených kroků.

  • Nejprve vytvořte instanci PagesApi
  • Dále nastavte ExtractOptions
  • Nastavte cestu vstupního souboru pomocí instance FileInfo
  • Dále nastavte cestu výstupního adresáře
  • Zadejte rozsah stránek nastavením čísla úvodní stránky a čísla koncové stránky, která se má extrahovat
  • Nyní nastavte interval režimu na Stránky
  • Nastavte režim rozsahu na EvenPages nebo OddPages
  • Dále vytvořte instanci ExtractRequest
  • Nakonec získejte výsledky voláním metody pagesApi.extract()

Následující příklad kódu ukazuje, jak extrahovat stránky poskytnutím rozsahu stránek z dokumentu PDF pomocí REST API. Chcete-li nahrát soubory, postupujte podle výše uvedených kroků.

# Jak extrahovat stránky z PDF podle rozsahu stránek v Pythonu pomocí REST API
try:
    # Vytvořte instanci rozhraní Document API
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Online extraktor stránek PDF zdarma

Jak extrahovat stránky z pdf zdarma? Vyzkoušejte prosím následující bezplatný online nástroj na extrahování PDF souborů, který je vyvinut pomocí výše uvedeného API.

Shrnutí

Tím se dostáváme k závěru blogového příspěvku. Doufám, že jste se naučili:

  • jak extrahovat konkrétní stránky z dokumentů PDF v Pythonu;
  • programově nahrajte soubor PDF a poté stáhněte extrahované soubory z cloudu;
  • jak extrahovat stránky souboru PDF pomocí rozsahu stránek pomocí Pythonu;

Více o GroupDocs.Merger Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci Odkaz na rozhraní API, která vám umožní vizualizovat naše rozhraní API a pracovat s nimi přímo prostřednictvím prohlížeče.

Na naší stránce Začínáme, můžete objevit další podrobnosti.

Kromě toho je Groupdocs.cloud neustále aktualizován o nová témata. V důsledku toho zůstaňte informováni o nejnovějších informacích o rozhraních API.

Položit otázku

Své dotazy ohledně rozhraní API softwaru pro extrakci stránek PDF můžete položit prostřednictvím našeho bezplatného fóra podpory (https://forum.groupdocs.cloud/c/conversion/11)

Nejčastější dotazy

Jak extrahovat stránky ze souboru PDF v Pythonu?

Sledujte tento odkaz a zjistěte úryvek kódu Python o tom, jak extrahovat stránky ze souborů PDF v Pythonu.

Jak extrahovat stránky z dokumentů PDF online pomocí REST API?

Vytvořte instanci PagesApi, nastavte hodnoty ExtractOptions a vyvolejte metodu pagesApi.extract() s ExtractRequest pro uložení vybraných stránek souboru PDF online.

Jak nainstalovat bezplatnou knihovnu pro extraktor stránek PDF?

Snadný způsob, jak extrahovat stránky z PDF, je pomocí Python SDK. Můžete si nainstalovat knihovnu Python pro extraktor PDF, abyste mohli programově extrahovat více stránek ze souborů PDF.

Jak extrahuji stránky PDF offline v systému Windows?

Navštivte tento odkaz a stáhněte si software na extrahování PDF pro Windows. Tento bezplatný software ke stažení PDF Extractor rozdělí stránky PDF v oknech rychle jediným kliknutím.

Viz také