Možná budete muset extrahovat obrázky z dokumentů PDF nebo Word, abyste je mohli znovu použít. Obrázky můžete snadno extrahovat z dokumentů PDF programově v cloudu. Tento článek vysvětlí, jak extrahovat obrázky z dokumentů PDF pomocí REST API v Pythonu.
Tento článek bude obsahovat následující témata:
- REST API analyzátoru dokumentů a Python SDK
- Extrahujte obrázky z PDF pomocí REST API
- Uložit obrázky podle rozsahu čísel stránek pomocí REST API
- Získejte obrázky z připojeného dokumentu pomocí REST API
REST API analyzátoru dokumentů a Python SDK
Pro extrahování obrázků z dokumentu PDF budu používat Python SDK of GroupDocs.Parser Cloud API. Umožňuje analyzovat data ze všech oblíbených typů dokumentů. Pomocí sady SDK můžete extrahovat text, obrázky a analyzovat data podle šablony. Poskytuje také sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analyzátorů dokumentů pro Cloud API.
GroupDocs.Parser Cloud můžete nainstalovat do svého projektu Python pomocí pip (instalátor balíčku pro python) pomocí následujícího příkazu v konzole:
pip install groupdocs_parser_cloud
Než začnete postupovat podle kroků a dostupných příkladů kódu, získejte své ID klienta a tajný klíč klienta z dashboard. Jakmile budete mít své ID klienta a tajný klíč, přidejte kód, jak je uvedeno níže:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Extrahujte obrázky z PDF pomocí REST API v Pythonu
Obrázky můžete extrahovat z dokumentů PDF podle jednoduchých kroků uvedených níže:
- Nahrát soubor PDF do cloudu
- Extrahujte obrázky z dokumentů PDF pomocí Pythonu
- Stažení the extracted images
Nahrajte dokument
Nejprve nahrajte dokument PDF do cloudu pomocí níže uvedeného příkladu kódu:
# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
V důsledku toho bude nahraný soubor PDF (sample.pdf) dostupný v sekce souborů vašeho řídicího panelu v cloudu.
Extrahujte všechny obrázky z dokumentu PDF pomocí Pythonu
Všechny obrázky můžete snadno extrahovat ze souboru PDF pomocí programu podle níže uvedených kroků.
- Vytvořte instanci ParseApi
- Definujte ImageOptions
- Nastavte cestu k souboru PDF
- Vytvořit ImagesRequest
- Získejte výsledky voláním metody ParseApi.images()
Následující ukázka kódu ukazuje, jak extrahovat všechny obrázky z dokumentu PDF pomocí REST API.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for image in result.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Stáhněte si extrahované obrázky
Výše uvedená ukázka kódu uloží extrahované obrázky do cloudu. Tyto obrázky si můžete stáhnout pomocí níže uvedeného ukázkového kódu:
# inicializace api
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
# Stáhnout obrázek
request = groupdocs_parser_cloud.DownloadFileRequest(image.path, my_storage)
response = file_api.download_file(request)
# Přesuňte stažený soubor do svého pracovního adresáře
shutil.move(response, "C:\\Files\\Images")
Uložte obrázky podle čísel stránek z dokumentů PDF pomocí Pythonu
Obrázky můžete snadno extrahovat z konkrétních stránek souboru PDF programově podle níže uvedených kroků.
- Vytvořte instanci ParseApi
- Definujte ImageOptions
- Zadejte cestu k souboru PDF
- Nastavte číslo úvodní stránky
- Nastavte počet stránek k extrahování
- Vytvořit ImagesRequest
- Získejte výsledky voláním metody ParseApi.images()
Následující ukázka kódu ukazuje, jak extrahovat obrázky podle rozsahu čísel stránek z dokumentu PDF pomocí REST API. Chcete-li stáhnout extrahované obrázky, postupujte podle výše uvedených kroků.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
# definovat rozsah stránek
options.start_page_number = 1
options.count_pages_to_extract = 1
# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Získejte obrázky z dokumentu připojeného k PDF pomocí Pythonu
Obrázky můžete extrahovat z dokumentu uvnitř kontejneru, který je k dispozici jako příloha v souboru PDF, programově podle kroků uvedených níže.
- Vytvořte instanci ParseApi
- Definujte ImageOptions
- Nastavte cestu k souboru PDF
- Definujte ContainerItemInfo
- Zadejte relativní cestu vnitřního dokumentu
- Nastavte číslo úvodní stránky
- Nastavte počet stránek k extrahování
- Vytvořit ImagesRequest
- Získejte výsledky voláním metody ParseApi.images()
Následující ukázka kódu ukazuje, jak extrahovat obrázky z dokumentu uvnitř dokumentu PDF pomocí REST API. Chcete-li stáhnout extrahované obrázky, postupujte podle výše uvedených kroků.
# inicializace api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definovat možnosti obrázku
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
# nastavit položku kontejneru
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
# definovat rozsah stránek
options.start_page_number = 2
options.count_pages_to_extract = 1
# vytvořit požadavek
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
for page in result.pages:
print("Images from " + str(page.page_index) + " page.")
for image in page.images:
print("Image path in storage: " + image.path + ". Download url: " + image.download_url)
print("Image format: " + image.file_format + ". Page index: " + str(image.page_index))
Vyzkoušejte online
Vyzkoušejte prosím následující bezplatný online nástroj pro analýzu PDF, který je vyvinut pomocí výše uvedeného API. https://products.groupdocs.app/parser/pdf
Závěr
V tomto článku jste se naučili, jak extrahovat obrázky z dokumentů PDF v cloudu. Tento článek také vysvětluje, jak programově nahrát soubor PDF do cloudu. Také jste se naučili, jak stáhnout extrahované obrázky pomocí SDK. Více o GroupDocs.Parser Cloud API se můžete dozvědět pomocí dokumentace. Poskytujeme také sekci API Reference, která vám umožní vizualizovat a pracovat s našimi API přímo prostřednictvím prohlížeče. V případě jakýchkoliv nejasností nás neváhejte kontaktovat na fóru.