あなたが Python 開発者で、ドキュメントからデータを抽出したい場合、この記事では、簡単な Python の例を使用して、さまざまなワープロ ドキュメント、スプレッドシート、プレゼンテーション、PDF ドキュメントから画像を抽出する方法を説明します。
今日は次のトピックについて説明します。
- 画像抽出 REST API と Python SDK
- Python を使用して PDF ドキュメントから画像を抽出する
- Python を使用した Excel、PPT、または Word ドキュメントからの画像抽出
画像抽出 REST API と Python SDK
今回は、GroupDocs.Parser Cloud APIのPython SDKを使用して、さまざまな種類のドキュメントから画像を抽出します。ただし、現在、クラウド API の ドキュメント解析ファミリー メンバー として、.NET、Java、PHP、Ruby、および Node.js SDK も提供しています。
この API は、ワープロ文書、スプレッドシート、プレゼンテーション、電子メール、アーカイブ、マークアップ、PDF 文書などのさまざまな種類の文書から画像を抽出するとともに、テキストとメタデータの抽出もサポートしています。
目的に近づくと、手順と利用可能なコード例に従う前に、まず ダッシュボード から APP KEY と APP SID を取得します。
Python を使用して PDF から画像を抽出する
例として、まず PDF ドキュメントから画像を抽出します。簡単な手順に従うだけで、すべての画像を簡単に抽出できます。
- PDF ドキュメントをクラウドにアップロードします。
- アップロードされたドキュメントから画像を抽出します。
- 抽出した画像をダウンロードします。
PDFドキュメントをアップロードする
まず、次のいずれかの方法を使用して PDF ドキュメントをクラウドにアップロードします。
- ダッシュボードを使用します。
- ブラウザからファイルアップロードAPIを利用します。
- ドキュメント で説明されているようにプログラム的に。
その結果、PDF ファイルがクラウドストレージにアップロードされます
アップロードされた PDF ドキュメントから画像を抽出する
これで、PDF からすべての写真を抽出するという難しい部分は完了しました。次の Python コードを使用すると、アップロードされた PDF ドキュメントからすべての画像をすばやく抽出できます。
# Python で Word 文書、Excel スプレッドシート、プレゼンテーション、または PDF 文書から画像を抽出する方法。
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# https://dashboard.groupdocs.cloud/ から APP SID と APP Key を取得します。
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# 抽出された画像のプロパティを表示する
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
抽出した画像をダウンロードする
画像を抽出したら、ダッシュボードまたはプログラムによってクラウドから画像をダウンロードできます。ここに示されている画像は、上記の PDF ドキュメントから抽出されたものです。
Python を使用した Excel、PPT、または Word ドキュメントからの画像抽出
同様に、PDF ドキュメント用の上記の正確な Python コードを使用して、Word ドキュメント、スプレッドシート、プレゼンテーションからすべての画像を抽出できます。ファイルパスを拡張子付きの正しいドキュメント名に変更するだけです。
# Word 文書、Excel スプレッドシート、Python のプレゼンテーションから画像を抽出します。
options.file_info.file_path = "documents/doc-with-images.docx"
# 要件に応じてドキュメントのパスを変更するだけです (doc/docx、xls/xlsx、ppt/pptx など)。
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
オンラインでドキュメントから画像を抽出
オンラインでファイルまたはドキュメントから画像を無料で抽出するにはどうすればよいですか? Groupdocs.Parser は、Word オンラインから画像を抽出したり、PDF からすべての画像を抽出したり、PowerPoint にすべての画像を保存したり、xlsx Python から画像を抽出したりするための 無料のオンライン ツール を提供します。 jpg、png、jpeg、または gif 画像を抽出したいドキュメントを選択するだけです。
オンラインで無料で PDF から画像を抽出、オンラインで Excel から画像を抽出、オンラインで Word から画像を抽出、オンラインで pptx から画像を抽出 ツールは、 Groupdocs.Parser Python API。
結論
この記事では、Python を使用して Word、Excel、PowerPoint, PDF、およびその他のドキュメントからプログラムで画像を抽出する方法を学びました。コードに違いはありません。ソースドキュメントのパスとタイプを変更するだけです。
その他の機能やドキュメント解析 API の詳細については、ドキュメント にアクセスして、例も含まれている記事をご覧ください。強調表示された機能をテストする最良の方法は、GitHub のオープンソースの実行例を体験することです。混乱が生じた場合には、GroupDocs サポート チーム が喜んでお手伝いいたします。ありがとう
質問する
Python を使用して PDF、XLSX、PPTX、または Word DOCX から画像を抽出する方法についてご質問がある場合は、無料サポート フォーラム までお気軽にお問い合わせください。 )
関連項目
- PDF からすべての画像を抽出し、Node.js を使用してオンラインで PDF から画像を抽出します
- PDFからの自動データ抽出とPDF Pythonオンラインからのデータ抽出
- PDF Python から画像を抽出し、Python を使用して PDF acrobat から画像を抽出する
- Node.js で REST API を使用して Word 文書から特定のデータを抽出する方法
- PDF からデータを抽出する JavaScript と PDF からデータを抽出するための最適なプログラミング言語
- Python の REST API を使用して Word ドキュメント Python からテーブルを抽出する