Pokud jste vývojář Pythonu a chcete extrahovat data z dokumentů, tento článek vás provede extrahováním obrázků z různých textových dokumentů, tabulek, prezentací a dokumentů PDF pomocí jednoduchých příkladů Pythonu.
Dnes se budou probírat následující témata:
- Image Extraction REST API a Python SDK
- Extrahujte obrázky z dokumentu PDF pomocí Pythonu
- Extrakce obrázků z Excelu, PPT nebo Word Docs pomocí Pythonu
Image Extraction REST API a Python SDK
Tentokrát použijeme Python SDK GroupDocs.Parser Cloud API pro extrakci obrázků z různých typů dokumentů. V současné době však také poskytuje sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analýzy dokumentů pro Cloud API.
API také podporuje extrakci textu a metadat spolu s extrakcí obrázků z různých druhů dokumentů, jako jsou dokumenty pro zpracování textu, tabulky, prezentace, e-maily, archivy, značky a dokumenty PDF.
Když se dostaneme k cíli, nejprve získejte svůj APP KEY a APP SID z dashboard, než začnete postupovat podle kroků a dostupných příkladů kódu.
Extrahujte obrázky z PDF pomocí Pythonu
Jako příklad nejprve extrahuji obrázky z dokumentu PDF. Pomocí jednoduchých kroků lze všechny obrázky snadno extrahovat.
- Nahrajte dokument PDF do cloudu.
- Extrahujte obrázky z nahraného dokumentu.
- Stáhněte si extrahované obrázky.
Nahrajte dokument PDF
Nejprve nahrajte dokument PDF do cloudu pomocí některé z následujících metod:
- Pomocí dashboard.
- Pomocí Upload File API z prohlížeče.
- Programově, jak je uvedeno v dokumentaci.
V důsledku toho bude soubor PDF nahrán do cloudového úložiště
Extrahujte obrázky z nahraného dokumentu PDF
Nyní jste hotovi s obtížnou částí extrahovat všechny fotografie z pdf. Následující kód Pythonu vám umožní rychle extrahovat všechny obrázky z nahraného dokumentu PDF.
# Jak extrahovat obrázky z dokumentů Wordu, tabulek Excelu, prezentací nebo dokumentu PDF v Pythonu.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# Získejte APP SID a APP Key z https://dashboard.groupdocs.cloud/
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Zobrazit vlastnosti extrahovaných obrázků
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Stáhněte si extrahované obrázky
Jakmile obrázky rozbalíte, můžete je stáhnout z cloudu buď z řídicího panelu, nebo programově. Zde zobrazené obrázky jsou extrahovány z výše uvedeného dokumentu PDF.
Extrakce obrázků z Excelu, PPT nebo Word Docs pomocí Pythonu
Podobně můžete extrahovat všechny obrázky z dokumentů Word, tabulek, prezentací s přesným výše uvedeným kódem python pro dokument PDF. Musíte pouze změnit cestu k souboru se správným názvem dokumentu s příponou.
# Extrahujte obrázky z dokumentů aplikace Word, tabulek Excel, prezentací v Pythonu.
options.file_info.file_path = "documents/doc-with-images.docx"
# Stačí změnit cestu dokumentu podle požadavku (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Extrahujte obrázky z dokumentu Online
Jak extrahovat obrázky ze souboru nebo dokumentu online zdarma? Groupdocs.Parser poskytuje bezplatný online nástroj pro extrahování obrázků z wordu online, extrahování všech obrázků z pdf, ukládání všech obrázků do powerpointu nebo extrahování obrázků z xlsx pythonu. Jednoduše vyberte dokument, ze kterého chcete extrahovat obrázky jpg, png, jpeg nebo gif.
Extrahovat obrázky z pdf online zdarma, extrahovat obrázky z excelu online, extrahovat obrázek z wordu online a extrahovat obrázky z pptx online byly vyvinuty pomocí Groupdocs.Parser Python API.
Závěr
V tomto článku jsme se naučili, jak programově extrahovat obrázky z Wordu, Excelu, PowerPointu, PDF a dalších dokumentů pomocí Pythonu. Žádný rozdíl v kódu, jen musíme změnit cestu a typ zdrojového dokumentu.
Další funkce a další informace o rozhraní API pro analýzu dokumentů naleznete v dokumentaci, kde najdete články, které také obsahují příklady. Nejlepší způsob, jak otestovat zvýrazněné funkce, je vyzkoušet si příklady běhu s otevřeným zdrojovým kódem z GitHub. V případě jakýchkoli nejasností vám tým podpory GroupDocs rád pomůže. dík
Položit otázku
Pokud máte nějaké dotazy ohledně toho, jak extrahovat obrázky z PDF, XLSX, PPTX nebo Word DOCX pomocí Pythonu, neváhejte se nás zeptat na Free Support Forum
Viz také
- Extrahujte všechny obrázky z PDF a extrahujte obrázky z PDF online pomocí Node.js
- Automatizovaná extrakce dat z PDF a extrahování dat z PDF python online
- Extrahujte obrázky z PDF python a extrahujte obrázky z PDF Acrobat pomocí Pythonu
- Jak extrahovat konkrétní data z dokumentu Word pomocí REST API v Node.js
- Extrahujte data z PDF javascript a nejlepší programovací jazyk pro extrahování dat z PDF
- Extrahujte tabulky z word document python pomocí REST API v Pythonu