Python を使用してドキュメントから画像を抽出する

あなたが Python 開発者で、ドキュメントからデータを抽出したい場合、この記事では、簡単な Python の例を使用して、さまざまなワープロ ドキュメント、スプレッドシート、プレゼンテーション、PDF ドキュメントから画像を抽出する方法を説明します。

今日は次のトピックについて説明します。

画像抽出 REST API と Python SDK

ドキュメント解析 Python SDK

今回は、GroupDocs.Parser Cloud APIPython SDKを使用して、さまざまな種類のドキュメントから画像を抽出します。ただし、現在、クラウド API の ドキュメント解析ファミリー メンバー として、.NET、Java、PHP、Ruby、および Node.js SDK も提供しています。

この API は、ワープロ文書、スプレッドシート、プレゼンテーション、電子メール、アーカイブ、マークアップ、PDF 文書などのさまざまな種類の文書から画像を抽出するとともに、テキストとメタデータの抽出もサポートしています。

目的に近づくと、手順と利用可能なコード例に従う前に、まず ダッシュボード から APP KEY と APP SID を取得します。

Python を使用して PDF から画像を抽出する

画像を抽出する PDF ドキュメント、PDF から画像を取得する、または PDF から画像を抽出する

例として、まず PDF ドキュメントから画像を抽出します。簡単な手順に従うだけで、すべての画像を簡単に抽出できます。

  • PDF ドキュメントをクラウドにアップロードします。
  • アップロードされたドキュメントから画像を抽出します。
  • 抽出した画像をダウンロードします。

PDFドキュメントをアップロードする

まず、次のいずれかの方法を使用して PDF ドキュメントをクラウドにアップロードします。

その結果、PDF ファイルがクラウドストレージにアップロードされます

ダッシュボードにアップロードされた PDF ファイル

PDF ファイルをダッシュボード.groupdocs.cloud/#/file にアップロードしました

アップロードされた PDF ドキュメントから画像を抽出する

これで、PDF からすべての写真を抽出するという難しい部分は完了しました。次の Python コードを使用すると、アップロードされた PDF ドキュメントからすべての画像をすばやく抽出できます。

# Python で Word 文書、Excel スプレッドシート、プレゼンテーション、または PDF 文書から画像を抽出する方法。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
    @classmethod  
    def Run(cls):
        # https://dashboard.groupdocs.cloud/ から APP SID と APP Key を取得します。
        configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
        configuration.api_base_url = "https://api.groupdocs.cloud"
        parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
        
        options = groupdocs_parser_cloud.ImagesOptions()
        options.file_info = groupdocs_parser_cloud.FileInfo()
        options.file_info.file_path = "documents/doc-with-images.pdf"

        request = groupdocs_parser_cloud.ImagesRequest(options)
        result = parseApi.images(request)
        # 抽出された画像のプロパティを表示する
       for image in result.images:
            print("Path: " + image.path)
            print("Download url: " + image.download_url)
            print("Image format: " + image.file_format)
            print("Page index: " + str(image.page_index))

抽出した画像をダウンロードする

画像を抽出したら、ダッシュボードまたはプログラムによってクラウドから画像をダウンロードできます。ここに示されている画像は、上記の PDF ドキュメントから抽出されたものです。

PDFファイルから抽出した画像

PDF ドキュメントから抽出された画像

Python を使用してドキュメントから画像を抽出する

pdf、xlsx、pptx、または docx ファイルから高品質の画像を抽出します

Python を使用した Excel、PPT、または Word ドキュメントからの画像抽出

同様に、PDF ドキュメント用の上記の正確な Python コードを使用して、Word ドキュメント、スプレッドシート、プレゼンテーションからすべての画像を抽出できます。ファイルパスを拡張子付きの正しいドキュメント名に変更するだけです。

# Word 文書、Excel スプレッドシート、Python のプレゼンテーションから画像を抽出します。
options.file_info.file_path = "documents/doc-with-images.docx"
# 要件に応じてドキュメントのパスを変更するだけです (doc/docx、xls/xlsx、ppt/pptx など)。
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)

オンラインでドキュメントから画像を抽出

オンラインでファイルまたはドキュメントから画像を無料で抽出するにはどうすればよいですか? Groupdocs.Parser は、Word オンラインから画像を抽出したり、PDF からすべての画像を抽出したり、PowerPoint にすべての画像を保存したり、xlsx Python から画像を抽出したりするための 無料のオンライン ツール を提供します。 jpg、png、jpeg、または gif 画像を抽出したいドキュメントを選択するだけです。

オンラインで無料で PDF から画像を抽出オンラインで Excel から画像を抽出オンラインで Word から画像を抽出オンラインで pptx から画像を抽出 ツールは、 Groupdocs.Parser Python API。

結論

この記事では、Python を使用して Word、Excel、PowerPoint, PDF、およびその他のドキュメントからプログラムで画像を抽出する方法を学びました。コードに違いはありません。ソースドキュメントのパスとタイプを変更するだけです。

その他の機能やドキュメント解析 API の詳細については、ドキュメント にアクセスして、例も含まれている記事をご覧ください。強調表示された機能をテストする最良の方法は、GitHub のオープンソースの実行例を体験することです。混乱が生じた場合には、GroupDocs サポート チーム が喜んでお手伝いいたします。ありがとう

質問する

Python を使用して PDF、XLSX、PPTX、または Word DOCX から画像を抽出する方法についてご質問がある場合は、無料サポート フォーラム までお気軽にお問い合わせください。 )

関連項目