Extrahujte obrázky z dokumentů PDF

Možná budete muset extrahovat obrázky z dokumentů PDF nebo Word, abyste je mohli znovu použít. Obrázky můžete snadno extrahovat z dokumentů PDF programově v cloudu. Tento článek vysvětlí, jak extrahovat obrázky z dokumentů PDF pomocí REST API v Pythonu.

Tento článek bude obsahovat následující témata:

REST API analyzátoru dokumentů a Python SDK

Pro extrahování obrázků z dokumentu PDF budu používat Python SDK of GroupDocs.Parser Cloud API. Umožňuje analyzovat data ze všech oblíbených typů dokumentů. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.

GroupDocs.Parser Cloud můžete nainstalovat do svého projektu Python pomocí pip (instalátor balíčku pro python) pomocí následujícího příkazu v konzole:

pip install groupdocs_parser_cloud

Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID klienta a tajný klíč, přidejte kód, jak je uvedeno níže:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Extrahujte obrázky z PDF pomocí REST API v Pythonu

Obrázky můžete extrahovat z dokumentů PDF podle jednoduchých kroků uvedených níže:

Nahrajte dokument

Nejprve nahrajte dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:

# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

V důsledku toho bude nahraný soubor PDF (sample.pdf) dostupný v sekce souborů vašeho řídicího panelu v cloudu.

Extrahujte všechny obrázky z dokumentu PDF pomocí Pythonu

Všechny obrázky můžete snadno extrahovat ze souboru PDF pomocí programu podle níže uvedených kroků.

  • Vytvořte instanci ParseApi
  • Definujte ImageOptions
  • Nastavte cestu k souboru PDF
  • Vytvořit ImagesRequest
  • Získejte výsledky voláním metody ParseApi.images()

Následující ukázka kódu ukazuje, jak extrahovat všechny obrázky z dokumentu PDF pomocí REST API.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for image in result.images:
    print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
    print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahujte všechny obrázky z dokumentu PDF.

Extrahujte všechny obrázky z dokumentu PDF.

Stáhněte si extrahované obrázky

Výše uvedená ukázka kódu uloží extrahované obrázky do cloudu. Tyto obrázky si můžete stáhnout pomocí níže uvedeného ukázkového kódu:

# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
  
# Stáhnout obrázek 
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)

# Přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\Images")

Uložte obrázky podle čísel stránek z dokumentů PDF pomocí Pythonu

Obrázky můžete snadno extrahovat z konkrétních stránek souboru PDF programově podle níže uvedených kroků.

  • Vytvořte instanci ParseApi
  • Definujte ImageOptions
  • Zadejte cestu k souboru PDF
  • Nastavte číslo úvodní stránky
  • Nastavte počet stránek k extrahování
  • Vytvořit ImagesRequest
  • Získejte výsledky voláním metody ParseApi.images()

Následující ukázka kódu ukazuje, jak extrahovat obrázky podle rozsahu čísel stránek z dokumentu PDF pomocí REST API. Chcete-li stáhnout extrahované obrázky, postupujte podle výše uvedených kroků.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# definovat rozsah stránek
options.start_page_number = 1
options.count_pages_to_extract = 1

# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahujte obrázky podle rozsahu čísel stránek z dokumentu PDF.

Extrahujte obrázky podle rozsahu čísel stránek z dokumentu PDF.

Získejte obrázky z dokumentu připojeného k PDF pomocí Pythonu

Obrázky můžete extrahovat z dokumentu uvnitř kontejneru, který je k dispozici jako příloha v souboru PDF, programově podle kroků uvedených níže.

  • Vytvořte instanci ParseApi
  • Definujte ImageOptions
  • Nastavte cestu k souboru PDF
  • Definujte ContainerItemInfo
  • Zadejte relativní cestu vnitřního dokumentu
  • Nastavte číslo úvodní stránky
  • Nastavte počet stránek k extrahování
  • Vytvořit ImagesRequest
  • Získejte výsledky voláním metody ParseApi.images()

Následující ukázka kódu ukazuje, jak extrahovat obrázky z dokumentu uvnitř dokumentu PDF pomocí REST API. Chcete-li stáhnout extrahované obrázky, postupujte podle výše uvedených kroků.

# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# nastavit položku kontejneru
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# definovat rozsah stránek
options.start_page_number = 2
options.count_pages_to_extract = 1

# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

for page in result.pages:
    print("Images from " + str(page.page_index) + " page.")
   for image in page.images:
        print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
        print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Extrahujte obrázky z dokumentu připojeného v dokumentu PDF

Extrahujte obrázky z dokumentu připojeného v dokumentu PDF.

Vyzkoušejte online

Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu PDF, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/pdf

Závěr

V tomto článku jste se naučili, jak extrahovat obrázky z dokumentů PDF v cloudu. Tento článek také vysvětluje, jak programově nahrát soubor PDF do cloudu. Také jste se naučili, jak stáhnout extrahované obrázky pomocí SDK. Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.

Viz také