Python でオンラインで PDF ファイルからページを抽出する方法

Python でオンラインで PDF ファイルからページを抽出する

場合によっては、PDF ドキュメントから PDF ページを抽出する必要がある場合や、大きな PDF ドキュメントを小さな PDF ファイルに分割する必要がある場合があります。 Python 開発者は、オンラインで PDF ファイルから特定のページを簡単に抽出したり、プログラムでページ範囲ごとに PDF ページを抽出したりできます。この記事では、REST API を使用して Python でオンラインで PDF ファイルからページを抽出する方法を学習します。

この記事では次のトピックについて説明します。

Document Extractor REST API と Python SDK

オンラインで PDF ファイルから PDF ページを抽出するには、GroupDocs.Merger Cloud API の Python SDK を使用します。機能が豊富で高性能なクラウド SDK です。この Python API を使用すると、単一のドキュメントから PDF ページを複数のファイルに抽出できます。 SDK は、ページ全体または優先範囲のページの再配置、削除、交換、回転、またはページの向きを変更する機能を提供します。また、PDF、Word、PowerPoint, Excel ワークシートなど、サポートされているファイル形式に対する他の操作もサポートしています。現在、ドキュメントとして .NET、Java、PHP、Ruby、Android、および Node.js SDK をサポートしています マージャー Cloud API のファミリー メンバー。

コンソールで次のコマンドを使用して、GroupDocs.Merger-Cloud を Python プロジェクトにインストールできます。

pip install groupdocs_merger_cloud

手順と利用可能なコード例に従う前に、ダッシュボード からクライアント ID とクライアント シークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。

# groupdocs Merger SDK をインポートする
import groupdocs_merger_cloud

# 無料登録後、https://dashboard.groupdocs.cloud から app_sid と app_key を取得します。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# ファイル API 構成を取得する 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

REST APIを使用してPythonでPDFから特定のページを抽出する方法

PDF スプリッター API を使用すると、分割したいページをプレビューできます。抽出したいページ数を指定するだけでページを選択できます。 PDF を瞬時に個々のページに分割したり、新しい PDF ドキュメントから特定のページを抽出したりできます。以下の簡単な手順に従って、オンラインで PDF ファイルから PDF ページを抽出します。

  1. PDFファイルをクラウドにアップロードします。
  2. 抽出 Python のページ番号による PDF ページ。
  3. 解凍したファイルをダウンロードします。

ドキュメントをアップロードする

まず、以下のコード スニペットを使用して、複数ページの PDF ドキュメントをクラウドにアップロードします。

# PDFファイルをクラウドストレージにアップロード
# ファイルAPIのインスタンスを作成する
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# ファイルアップロードリクエストを呼び出す
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# PDFファイルをクラウドにアップロード
response = file_api.upload_file(request)
print(response.uploaded)

その結果、PDF ファイルが Cloud Storage にアップロードされ、ダッシュボードの ファイル セクション で利用できるようになります。アップロード後 24 時間以内に、すべてのファイルをクラウドから完全に削除します。

Python を使用してページ番号で特定のページを抽出する

PDF ドキュメントから特定のページまたは複数のページをプログラムで抽出するには、以下の手順に従います。

  • まず、PagesApi インスタンスを作成します
  • 次に、ExtractOptions インスタンスを提供します
  • ここで、FileInfo インスタンスを使用して入力ファイルのパスを設定します。
  • 次に、出力ディレクトリのパスを設定します。
  • 次に、抽出するページ番号をカンマ区切りで指定します。
  • 次に、モードを「Pages」に設定します
  • 次に、ExtractRequest インスタンスを作成します
  • 最後に、pagesApi.extract() クラスを呼び出して結果を取得します。

次のコード例は、REST API を使用して PDF ドキュメントから特定のページ番号を指定してページを抽出する方法を示しています。

# REST APIを使用してPythonでPDFから特定のページを抽出する方法
try:
    # Pages API のインスタンスを作成する
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

抽出された PDF ページ ファイルをダウンロードする

上記のコード サンプルは、抽出されたページを別の PDF ファイルとしてクラウド上に保存します。次のコード サンプルを使用してダウンロードできます。

# 変換されたファイルをダウンロードするための API の初期化
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# ダウンロードファイルリクエストの作成
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# 変換されたファイルをダウンロードする
response = file_api.download_file(request)

# ダウンロードしたファイルをディレクトリに移動します
shutil.move(response, "H:\\groupdocs-cloud-data\\")

REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する

プログラムでページ範囲を指定して PDF ドキュメントからページを抽出するには、以下の手順に従ってください。

  • まず、PagesApi インスタンスを作成します
  • 次に、ExtractOptions を設定します
  • FileInfo インスタンスで入力ファイルのパスを設定する
  • 次に、出力ディレクトリのパスを設定します。
  • 抽出する開始ページ番号と終了ページ番号を設定してページ範囲を指定します。
  • 次に、モード間隔をページに設定します。
  • rangemode を EvenPages または OddPages に設定します
  • 次に、ExtractRequest インスタンスを作成します
  • 最後に、pagesApi.extract() メソッドを呼び出して結果を取得します。

次のコード例は、REST API を使用して PDF ドキュメントからページ範囲を指定してページを抽出する方法を示しています。前述の手順に従ってファイルをアップロードしてください。

# REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する方法
try:
    # Document API のインスタンスを作成する
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

オンライン PDF ページ抽出ツール (無料)

PDFからページを無料で抽出するにはどうすればよいですか?上記の API を使用して開発された、次の 無料のオンライン PDF 抽出ツール をお試しください。

まとめ

これでこのブログ投稿は終わります。以下のことを学んでいただければ幸いです。

  • Python で PDF ドキュメントから特定のページを抽出する方法。
  • プログラムで PDF ファイルをアップロードし、抽出されたファイルをクラウドからダウンロードします。
  • Pythonを使用してページ範囲を使用してPDFファイルのページを抽出する方法;

GroupDocs.Merger Cloud API の詳細については、ドキュメント を使用して学習できます。また、ブラウザーを通じて API を直接視覚化し操作できるようにする API リファレンス セクションも提供しています。

[はじめに] ページ 18 で詳細をご覧いただけます。

さらに、Groupdocs.cloud は新しいトピックで継続的に更新されます。その結果、最新の API 情報を常に最新の状態に保つことができます。

質問する

PDF ページ抽出ソフトウェア API に関する質問は、無料サポート フォーラム から行うことができます。

よくある質問

PythonでPDFファイルからページを抽出するにはどうすればよいですか?

Python で PDF ファイルからページを抽出する方法に関する Python コード スニペットを学習するには、このリンク に従ってください。

REST APIを使用してオンラインでPDFドキュメントからページを抽出するにはどうすればよいですか?

PagesApi のインスタンスを作成し、ExtractOptions の値を設定し、ExtractRequest で pagesApi.extract() メソッドを呼び出して、PDF ファイルの選択したページをオンラインで保存します。

PDF ページ抽出ツールの無料ダウンロード ライブラリをインストールするにはどうすればよいですか?

PDF からページを抽出する簡単な方法は、Python SDK を使用することです。 PDF 抽出 Python ライブラリをインストールして、プログラムで PDF ファイルから複数のページを抽出できます。

Windows で PDF ページをオフラインで抽出するにはどうすればよいですか?

Windows 用 PDF 抽出ソフトウェアをダウンロードするには、このリンク にアクセスしてください。この PDF 抽出ツールの無料ダウンロード ソフトウェアは、ワンクリックで Windows 上で PDF ページをすばやく分割します。

関連項目