Python を使用して PDF、Excel、PPT、Word ドキュメントから画像を抽出する

あなたが Python 開発者で、ドキュメントからデータを抽出したい場合、この記事では、簡単な Python の例を使用して、さまざまなワープロドキュメント、スプレッドシート、プレゼンテーション、PDF ドキュメントから画像を抽出する方法を説明します。

今日は次のトピックについて説明します。

画像抽出 REST API と Python SDK
Python を使用して PDF ドキュメントから画像を抽出する
Python を使用した Excel、PPT、または Word ドキュメントからの画像抽出

画像抽出 REST API と Python SDK

今回は、GroupDocs.Parser Cloud APIのPython SDKを使用して、さまざまな種類のドキュメントから画像を抽出します。ただし、現在、クラウド API のドキュメント解析ファミリーメンバーとして、.NET、Java、PHP、Ruby、および Node.js SDK も提供しています。

この API は、ワープロ文書、スプレッドシート、プレゼンテーション、電子メール、アーカイブ、マークアップ、PDF 文書などのさまざまな種類の文書から画像を抽出するとともに、テキストとメタデータの抽出もサポートしています。

目的に近づくと、手順と利用可能なコード例に従う前に、まずダッシュボードから APP KEY と APP SID を取得します。

Python を使用して PDF から画像を抽出する

画像を抽出する PDF ドキュメント、PDF から画像を取得する、または PDF から画像を抽出する

例として、まず PDF ドキュメントから画像を抽出します。簡単な手順に従うだけで、すべての画像を簡単に抽出できます。

PDF ドキュメントをクラウドにアップロードします。
アップロードされたドキュメントから画像を抽出します。
抽出した画像をダウンロードします。

PDFドキュメントをアップロードする

まず、次のいずれかの方法を使用して PDF ドキュメントをクラウドにアップロードします。

ダッシュボードを使用します。
ブラウザからファイルアップロードAPIを利用します。
ドキュメントで説明されているようにプログラム的に。

その結果、PDF ファイルがクラウドストレージにアップロードされます

ダッシュボードにアップロードされた PDF ファイル — PDF ファイルをダッシュボード.groupdocs.cloud/#/file にアップロードしました

アップロードされた PDF ドキュメントから画像を抽出する

これで、PDF からすべての写真を抽出するという難しい部分は完了しました。次の Python コードを使用すると、アップロードされた PDF ドキュメントからすべての画像をすばやく抽出できます。

# Python で Word 文書、Excel スプレッドシート、プレゼンテーション、または PDF 文書から画像を抽出する方法。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # https://dashboard.groupdocs.cloud/ から APP SID と APP Key を取得します。
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # 抽出された画像のプロパティを表示する
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

抽出した画像をダウンロードする

画像を抽出したら、ダッシュボードまたはプログラムによってクラウドから画像をダウンロードできます。ここに示されている画像は、上記の PDF ドキュメントから抽出されたものです。

Python を使用した Excel、PPT、または Word ドキュメントからの画像抽出

同様に、PDF ドキュメント用の上記の正確な Python コードを使用して、Word ドキュメント、スプレッドシート、プレゼンテーションからすべての画像を抽出できます。ファイルパスを拡張子付きの正しいドキュメント名に変更するだけです。

# Word 文書、Excel スプレッドシート、Python のプレゼンテーションから画像を抽出します。
options.file_info.file_path = "documents/doc-with-images.docx"
# 要件に応じてドキュメントのパスを変更するだけです (doc/docx、xls/xlsx、ppt/pptx など)。
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

オンラインでドキュメントから画像を抽出

オンラインでファイルまたはドキュメントから画像を無料で抽出するにはどうすればよいですか? Groupdocs.Parser は、Word オンラインから画像を抽出したり、PDF からすべての画像を抽出したり、PowerPoint にすべての画像を保存したり、xlsx Python から画像を抽出したりするための無料のオンラインツールを提供します。 jpg、png、jpeg、または gif 画像を抽出したいドキュメントを選択するだけです。

オンラインで無料で PDF から画像を抽出、オンラインで Excel から画像を抽出、オンラインで Word から画像を抽出、オンラインで pptx から画像を抽出ツールは、 Groupdocs.Parser Python API。

結論

この記事では、Python を使用して Word、Excel、PowerPoint, PDF、およびその他のドキュメントからプログラムで画像を抽出する方法を学びました。コードに違いはありません。ソースドキュメントのパスとタイプを変更するだけです。

その他の機能やドキュメント解析 API の詳細については、ドキュメントにアクセスして、例も含まれている記事をご覧ください。強調表示された機能をテストする最良の方法は、GitHub のオープンソースの実行例を体験することです。混乱が生じた場合には、GroupDocs サポートチームが喜んでお手伝いいたします。ありがとう

質問する

Python を使用して PDF、XLSX、PPTX、または Word DOCX から画像を抽出する方法についてご質問がある場合は、無料サポートフォーラムまでお気軽にお問い合わせください。 )

Python を使用して PDF、スプレッドシート、プレゼンテーション、Word ドキュメントから画像を抽出する

画像抽出 REST API と Python SDK