Python でオンラインで PDF ファイルからページを抽出する

場合によっては、PDF ドキュメントから PDF ページを抽出する必要がある場合や、大きな PDF ドキュメントを小さな PDF ファイルに分割する必要がある場合があります。 Python 開発者は、オンラインで PDF ファイルから特定のページを簡単に抽出したり、プログラムでページ範囲ごとに PDF ページを抽出したりできます。この記事では、REST API を使用して Python でオンラインで PDF ファイルからページを抽出する方法を学習します。

この記事では次のトピックについて説明します。

Document Extractor REST API と Python SDK
REST API を使用して Python で PDF から特定のページを抽出する方法
REST API を使用して Python でページ範囲ごとに PDF からページを抽出

Document Extractor REST API と Python SDK

オンラインで PDF ファイルから PDF ページを抽出するには、GroupDocs.Merger Cloud API の Python SDK を使用します。機能が豊富で高性能なクラウド SDK です。この Python API を使用すると、単一のドキュメントから PDF ページを複数のファイルに抽出できます。 SDK は、ページ全体または優先範囲のページの再配置、削除、交換、回転、またはページの向きを変更する機能を提供します。また、PDF、Word、PowerPoint, Excel ワークシートなど、サポートされているファイル形式に対する他の操作もサポートしています。現在、ドキュメントとして .NET、Java、PHP、Ruby、Android、および Node.js SDK をサポートしていますマージャー Cloud API のファミリーメンバー。

コンソールで次のコマンドを使用して、GroupDocs.Merger-Cloud を Python プロジェクトにインストールできます。

pip install groupdocs_merger_cloud

手順と利用可能なコード例に従う前に、ダッシュボードからクライアント ID とクライアントシークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。

# groupdocs Merger SDK をインポートする
import groupdocs_merger_cloud

# 無料登録後、https://dashboard.groupdocs.cloud から app_sid と app_key を取得します。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# ファイル API 構成を取得する 
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

REST APIを使用してPythonでPDFから特定のページを抽出する方法

PDF スプリッター API を使用すると、分割したいページをプレビューできます。抽出したいページ数を指定するだけでページを選択できます。 PDF を瞬時に個々のページに分割したり、新しい PDF ドキュメントから特定のページを抽出したりできます。以下の簡単な手順に従って、オンラインで PDF ファイルから PDF ページを抽出します。

PDFファイルをクラウドにアップロードします。
抽出 Python のページ番号による PDF ページ。
解凍したファイルをダウンロードします。

ドキュメントをアップロードする

まず、以下のコードスニペットを使用して、複数ページの PDF ドキュメントをクラウドにアップロードします。

# PDFファイルをクラウドストレージにアップロード
# ファイルAPIのインスタンスを作成する
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# ファイルアップロードリクエストを呼び出す
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)

# PDFファイルをクラウドにアップロード
response = file_api.upload_file(request)
print(response.uploaded)

その結果、PDF ファイルが Cloud Storage にアップロードされ、ダッシュボードのファイルセクションで利用できるようになります。アップロード後 24 時間以内に、すべてのファイルをクラウドから完全に削除します。

Python を使用してページ番号で特定のページを抽出する

PDF ドキュメントから特定のページまたは複数のページをプログラムで抽出するには、以下の手順に従います。

まず、PagesApi インスタンスを作成します
次に、ExtractOptions インスタンスを提供します
ここで、FileInfo インスタンスを使用して入力ファイルのパスを設定します。
次に、出力ディレクトリのパスを設定します。
次に、抽出するページ番号をカンマ区切りで指定します。
次に、モードを「Pages」に設定します
次に、ExtractRequest インスタンスを作成します
最後に、pagesApi.extract() クラスを呼び出して結果を取得します。

次のコード例は、REST API を使用して PDF ドキュメントから特定のページ番号を指定してページを抽出する方法を示しています。

# REST APIを使用してPythonでPDFから特定のページを抽出する方法
try:
    # Pages API のインスタンスを作成する
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
    options.output_path = "python-testing"
    options.pages = [2, 4, 7]        
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

抽出された PDF ページファイルをダウンロードする

上記のコードサンプルは、抽出されたページを別の PDF ファイルとしてクラウド上に保存します。次のコードサンプルを使用してダウンロードできます。

# 変換されたファイルをダウンロードするための API の初期化
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)

# ダウンロードファイルリクエストの作成
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)

# 変換されたファイルをダウンロードする
response = file_api.download_file(request)

# ダウンロードしたファイルをディレクトリに移動します
shutil.move(response, "H:\\groupdocs-cloud-data\\")

REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する

プログラムでページ範囲を指定して PDF ドキュメントからページを抽出するには、以下の手順に従ってください。

まず、PagesApi インスタンスを作成します
次に、ExtractOptions を設定します
FileInfo インスタンスで入力ファイルのパスを設定する
次に、出力ディレクトリのパスを設定します。
抽出する開始ページ番号と終了ページ番号を設定してページ範囲を指定します。
次に、モード間隔をページに設定します。
rangemode を EvenPages または OddPages に設定します
次に、ExtractRequest インスタンスを作成します
最後に、pagesApi.extract() メソッドを呼び出して結果を取得します。

次のコード例は、REST API を使用して PDF ドキュメントからページ範囲を指定してページを抽出する方法を示しています。前述の手順に従ってファイルをアップロードしてください。

# REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する方法
try:
    # Document API のインスタンスを作成する
    pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
     
    options = groupdocs_merger_cloud.ExtractOptions()
    options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
    options.output_path = "python-testing"
    options.start_page_number = 1
    options.end_page_number = 10
    options.range_mode = "EvenPages" # or set range_mode to "OddPages"
    options.mode = "Pages" # Mode Intervals
     
    result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
    print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

オンライン PDF ページ抽出ツール (無料)

PDFからページを無料で抽出するにはどうすればよいですか?上記の API を使用して開発された、次の無料のオンライン PDF 抽出ツールをお試しください。

まとめ

これでこのブログ投稿は終わります。以下のことを学んでいただければ幸いです。

Python で PDF ドキュメントから特定のページを抽出する方法。
プログラムで PDF ファイルをアップロードし、抽出されたファイルをクラウドからダウンロードします。
Pythonを使用してページ範囲を使用してPDFファイルのページを抽出する方法;

GroupDocs.Merger Cloud API の詳細については、ドキュメントを使用して学習できます。また、ブラウザーを通じて API を直接視覚化し操作できるようにする API リファレンスセクションも提供しています。

[はじめに] ページ 18 で詳細をご覧いただけます。

さらに、Groupdocs.cloud は新しいトピックで継続的に更新されます。その結果、最新の API 情報を常に最新の状態に保つことができます。

質問する

PDF ページ抽出ソフトウェア API に関する質問は、無料サポートフォーラムから行うことができます。

よくある質問

PythonでPDFファイルからページを抽出するにはどうすればよいですか?

Python で PDF ファイルからページを抽出する方法に関する Python コードスニペットを学習するには、このリンクに従ってください。

REST APIを使用してオンラインでPDFドキュメントからページを抽出するにはどうすればよいですか?

PagesApi のインスタンスを作成し、ExtractOptions の値を設定し、ExtractRequest で pagesApi.extract() メソッドを呼び出して、PDF ファイルの選択したページをオンラインで保存します。

PDF ページ抽出ツールの無料ダウンロードライブラリをインストールするにはどうすればよいですか?

PDF からページを抽出する簡単な方法は、Python SDK を使用することです。 PDF 抽出 Python ライブラリをインストールして、プログラムで PDF ファイルから複数のページを抽出できます。

Windows で PDF ページをオフラインで抽出するにはどうすればよいですか?

Windows 用 PDF 抽出ソフトウェアをダウンロードするには、このリンクにアクセスしてください。この PDF 抽出ツールの無料ダウンロードソフトウェアは、ワンクリックで Windows 上で PDF ページをすばやく分割します。

Document Extractor REST API と Python SDK#

REST APIを使用してPythonでPDFから特定のページを抽出する方法#

ドキュメントをアップロードする#

Python を使用してページ番号で特定のページを抽出する#

抽出された PDF ページ ファイルをダウンロードする#

REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する#

オンライン PDF ページ抽出ツール (無料)#

まとめ#

質問する#

よくある質問#

関連項目#