Extrahujte obrázky z dokumentů pomocí Pythonu

Pokud jste vývojář Pythonu a chcete extrahovat data z dokumentů, tento článek vás provede extrahováním obrázků z různých textových dokumentů, tabulek, prezentací a dokumentů PDF pomocí jednoduchých příkladů Pythonu.

Dnes se budou probírat následující témata:

Image Extraction REST API a Python SDK

Analýza dokumentů Python SDK

Tentokrát použijeme Python SDK GroupDocs.Parser Cloud API pro extrakci obrázků z různých typů dokumentů. V současné době však také poskytuje sady .NET, Java, PHP, Ruby a Node.js SDK jako členové rodiny analýzy dokumentů pro Cloud API.

API také podporuje extrakci textu a metadat spolu s extrakcí obrázků z různých druhů dokumentů, jako jsou dokumenty pro zpracování textu, tabulky, prezentace, e-maily, archivy, značky a dokumenty PDF.

Když se dostaneme k cíli, nejprve získejte svůj APP KEY a APP SID z dashboard, než začnete postupovat podle kroků a dostupných příkladů kódu.

Extrahujte obrázky z PDF pomocí Pythonu

Dokument PDF pro extrahování obrázků, získání obrázků z pdf nebo extrahování obrázku z pdf

Jako příklad nejprve extrahuji obrázky z dokumentu PDF. Pomocí jednoduchých kroků lze všechny obrázky snadno extrahovat.

  • Nahrajte dokument PDF do cloudu.
  • Extrahujte obrázky z nahraného dokumentu.
  • Stáhněte si extrahované obrázky.

Nahrajte dokument PDF

Nejprve nahrajte dokument PDF do cloudu pomocí některé z následujících metod:

V důsledku toho bude soubor PDF nahrán do cloudového úložiště

Soubor PDF nahrán na řídicí panel

Nahraný soubor PDF na dashboard.groupdocs.cloud/#/files

Extrahujte obrázky z nahraného dokumentu PDF

Nyní jste hotovi s obtížnou částí extrahovat všechny fotografie z pdf. Následující kód Pythonu vám umožní rychle extrahovat všechny obrázky z nahraného dokumentu PDF.

# Jak extrahovat obrázky z dokumentů Wordu, tabulek Excelu, prezentací nebo dokumentu PDF v Pythonu.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # Získejte APP SID a APP Key z https://dashboard.groupdocs.cloud/
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # Zobrazit vlastnosti extrahovaných obrázků
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

Stáhněte si extrahované obrázky

Jakmile obrázky rozbalíte, můžete je stáhnout z cloudu buď z řídicího panelu, nebo programově. Zde zobrazené obrázky jsou extrahovány z výše uvedeného dokumentu PDF.

Obrázky extrahované ze souboru PDF

Obrázky extrahované z dokumentu PDF

Extrahované obrázky z dokumentu pomocí Pythonu

Extrahujte vysoce kvalitní obrázek ze souboru pdf, xlsx, pptx nebo docx

Extrakce obrázků z Excelu, PPT nebo Word Docs pomocí Pythonu

Podobně můžete extrahovat všechny obrázky z dokumentů Word, tabulek, prezentací s přesným výše uvedeným kódem python pro dokument PDF. Musíte pouze změnit cestu k souboru se správným názvem dokumentu s příponou.

# Extrahujte obrázky z dokumentů aplikace Word, tabulek Excel, prezentací v Pythonu.
options.file_info.file_path = "documents/doc-with-images.docx"
# Stačí změnit cestu dokumentu podle požadavku (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

Extrahujte obrázky z dokumentu Online

Jak extrahovat obrázky ze souboru nebo dokumentu online zdarma? Groupdocs.Parser poskytuje bezplatný online nástroj pro extrahování obrázků z wordu online, extrahování všech obrázků z pdf, ukládání všech obrázků do powerpointu nebo extrahování obrázků z xlsx pythonu. Jednoduše vyberte dokument, ze kterého chcete extrahovat obrázky jpg, png, jpeg nebo gif.

Extrahovat obrázky z pdf online zdarma, extrahovat obrázky z excelu online, extrahovat obrázek z wordu online a extrahovat obrázky z pptx online byly vyvinuty pomocí Groupdocs.Parser Python API.

Závěr

V tomto článku jsme se naučili, jak programově extrahovat obrázky z Wordu, Excelu, PowerPointu, PDF a dalších dokumentů pomocí Pythonu. Žádný rozdíl v kódu, jen musíme změnit cestu a typ zdrojového dokumentu.

Další funkce a další informace o rozhraní API pro analýzu dokumentů naleznete v dokumentaci, kde najdete články, které také obsahují příklady. Nejlepší způsob, jak otestovat zvýrazněné funkce, je vyzkoušet si příklady běhu s otevřeným zdrojovým kódem z GitHub. V případě jakýchkoli nejasností vám tým podpory GroupDocs rád pomůže. dík

Položit otázku

Pokud máte nějaké dotazy ohledně toho, jak extrahovat obrázky z PDF, XLSX, PPTX nebo Word DOCX pomocí Pythonu, neváhejte se nás zeptat na Free Support Forum

Viz také