場合によっては、PDF ドキュメントから PDF ページを抽出する必要がある場合や、大きな PDF ドキュメントを小さな PDF ファイルに分割する必要がある場合があります。 Python 開発者は、オンラインで PDF ファイルから特定のページを簡単に抽出したり、プログラムでページ範囲ごとに PDF ページを抽出したりできます。この記事では、REST API を使用して Python でオンラインで PDF ファイルからページを抽出する方法を学習します。
この記事では次のトピックについて説明します。
- Document Extractor REST API と Python SDK
- REST API を使用して Python で PDF から特定のページを抽出する方法
- REST API を使用して Python でページ範囲ごとに PDF からページを抽出
Document Extractor REST API と Python SDK
オンラインで PDF ファイルから PDF ページを抽出するには、GroupDocs.Merger Cloud API の Python SDK を使用します。機能が豊富で高性能なクラウド SDK です。この Python API を使用すると、単一のドキュメントから PDF ページを複数のファイルに抽出できます。 SDK は、ページ全体または優先範囲のページの再配置、削除、交換、回転、またはページの向きを変更する機能を提供します。また、PDF、Word、PowerPoint, Excel ワークシートなど、サポートされているファイル形式に対する他の操作もサポートしています。現在、ドキュメントとして .NET、Java、PHP、Ruby、Android、および Node.js SDK をサポートしています マージャー Cloud API のファミリー メンバー。
コンソールで次のコマンドを使用して、GroupDocs.Merger-Cloud を Python プロジェクトにインストールできます。
pip install groupdocs_merger_cloud
手順と利用可能なコード例に従う前に、ダッシュボード からクライアント ID とクライアント シークレットを取得してください。 ID とシークレットを取得したら、以下に示すようにコードを追加します。
# groupdocs Merger SDK をインポートする
import groupdocs_merger_cloud
# 無料登録後、https://dashboard.groupdocs.cloud から app_sid と app_key を取得します。
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# ファイル API 構成を取得する
configuration = groupdocs_merger_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
REST APIを使用してPythonでPDFから特定のページを抽出する方法
PDF スプリッター API を使用すると、分割したいページをプレビューできます。抽出したいページ数を指定するだけでページを選択できます。 PDF を瞬時に個々のページに分割したり、新しい PDF ドキュメントから特定のページを抽出したりできます。以下の簡単な手順に従って、オンラインで PDF ファイルから PDF ページを抽出します。
ドキュメントをアップロードする
まず、以下のコード スニペットを使用して、複数ページの PDF ドキュメントをクラウドにアップロードします。
# PDFファイルをクラウドストレージにアップロード
# ファイルAPIのインスタンスを作成する
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
# ファイルアップロードリクエストを呼び出す
request = groupdocs_merger_cloud.UploadFileRequest("python-testing\sample-file.pdf", "H:\\groupdocs-cloud-data\\sample-file.pdf", storage_name)
# PDFファイルをクラウドにアップロード
response = file_api.upload_file(request)
print(response.uploaded)
その結果、PDF ファイルが Cloud Storage にアップロードされ、ダッシュボードの ファイル セクション で利用できるようになります。アップロード後 24 時間以内に、すべてのファイルをクラウドから完全に削除します。
Python を使用してページ番号で特定のページを抽出する
PDF ドキュメントから特定のページまたは複数のページをプログラムで抽出するには、以下の手順に従います。
- まず、PagesApi インスタンスを作成します
- 次に、ExtractOptions インスタンスを提供します
- ここで、FileInfo インスタンスを使用して入力ファイルのパスを設定します。
- 次に、出力ディレクトリのパスを設定します。
- 次に、抽出するページ番号をカンマ区切りで指定します。
- 次に、モードを「Pages」に設定します
- 次に、ExtractRequest インスタンスを作成します
- 最後に、pagesApi.extract() クラスを呼び出して結果を取得します。
次のコード例は、REST API を使用して PDF ドキュメントから特定のページ番号を指定してページを抽出する方法を示しています。
# REST APIを使用してPythonでPDFから特定のページを抽出する方法
try:
# Pages API のインスタンスを作成する
pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
options = groupdocs_merger_cloud.ExtractOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("python-testing/sample-file.pdf")
options.output_path = "python-testing"
options.pages = [2, 4, 7]
result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
print("Successfully extracted certain pages of PDF document: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
抽出された PDF ページ ファイルをダウンロードする
上記のコード サンプルは、抽出されたページを別の PDF ファイルとしてクラウド上に保存します。次のコード サンプルを使用してダウンロードできます。
# 変換されたファイルをダウンロードするための API の初期化
import shutil
file_api = groupdocs_merger_cloud.FileApi.from_config(configuration)
# ダウンロードファイルリクエストの作成
request = groupdocs_merger_cloud.DownloadFileRequest("python-testing\sample-file.pdf", storage_name)
# 変換されたファイルをダウンロードする
response = file_api.download_file(request)
# ダウンロードしたファイルをディレクトリに移動します
shutil.move(response, "H:\\groupdocs-cloud-data\\")
REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する
プログラムでページ範囲を指定して PDF ドキュメントからページを抽出するには、以下の手順に従ってください。
- まず、PagesApi インスタンスを作成します
- 次に、ExtractOptions を設定します
- FileInfo インスタンスで入力ファイルのパスを設定する
- 次に、出力ディレクトリのパスを設定します。
- 抽出する開始ページ番号と終了ページ番号を設定してページ範囲を指定します。
- 次に、モード間隔をページに設定します。
- rangemode を EvenPages または OddPages に設定します
- 次に、ExtractRequest インスタンスを作成します
- 最後に、pagesApi.extract() メソッドを呼び出して結果を取得します。
次のコード例は、REST API を使用して PDF ドキュメントからページ範囲を指定してページを抽出する方法を示しています。前述の手順に従ってファイルをアップロードしてください。
# REST APIを使用してPythonでページ範囲ごとにPDFからページを抽出する方法
try:
# Document API のインスタンスを作成する
pagesApi = groupdocs_merger_cloud.PagesApi.from_keys(app_sid, app_key)
options = groupdocs_merger_cloud.ExtractOptions()
options.file_info = groupdocs_merger_cloud.FileInfo("python-testing\sample-file.pdf")
options.output_path = "python-testing"
options.start_page_number = 1
options.end_page_number = 10
options.range_mode = "EvenPages" # or set range_mode to "OddPages"
options.mode = "Pages" # Mode Intervals
result = pagesApi.extract(groupdocs_merger_cloud.ExtractRequest(options))
print("Successfully extract selected pages from PDF by page range interval: " + result[0].path)
except groupdocs_merger_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
オンライン PDF ページ抽出ツール (無料)
PDFからページを無料で抽出するにはどうすればよいですか?上記の API を使用して開発された、次の 無料のオンライン PDF 抽出ツール をお試しください。
まとめ
これでこのブログ投稿は終わります。以下のことを学んでいただければ幸いです。
- Python で PDF ドキュメントから特定のページを抽出する方法。
- プログラムで PDF ファイルをアップロードし、抽出されたファイルをクラウドからダウンロードします。
- Pythonを使用してページ範囲を使用してPDFファイルのページを抽出する方法;
GroupDocs.Merger Cloud API の詳細については、ドキュメント を使用して学習できます。また、ブラウザーを通じて API を直接視覚化し操作できるようにする API リファレンス セクションも提供しています。
[はじめに] ページ 18 で詳細をご覧いただけます。
さらに、Groupdocs.cloud は新しいトピックで継続的に更新されます。その結果、最新の API 情報を常に最新の状態に保つことができます。
質問する
PDF ページ抽出ソフトウェア API に関する質問は、無料サポート フォーラム から行うことができます。
よくある質問
PythonでPDFファイルからページを抽出するにはどうすればよいですか?
Python で PDF ファイルからページを抽出する方法に関する Python コード スニペットを学習するには、このリンク に従ってください。
REST APIを使用してオンラインでPDFドキュメントからページを抽出するにはどうすればよいですか?
PagesApi のインスタンスを作成し、ExtractOptions の値を設定し、ExtractRequest で pagesApi.extract() メソッドを呼び出して、PDF ファイルの選択したページをオンラインで保存します。
PDF ページ抽出ツールの無料ダウンロード ライブラリをインストールするにはどうすればよいですか?
PDF からページを抽出する簡単な方法は、Python SDK を使用することです。 PDF 抽出 Python ライブラリをインストールして、プログラムで PDF ファイルから複数のページを抽出できます。
Windows で PDF ページをオフラインで抽出するにはどうすればよいですか?
Windows 用 PDF 抽出ソフトウェアをダウンロードするには、このリンク にアクセスしてください。この PDF 抽出ツールの無料ダウンロード ソフトウェアは、ワンクリックで Windows 上で PDF ページをすばやく分割します。