Python を使用して PDF からテキストを抽出する

Python アプリケーションで PDF ドキュメントからテキストを読み取って抽出する必要がある場合があります。したがって、Python 開発者は、クラウド上でプログラムによって PDF ドキュメントからすべてのテキストを簡単に抽出できます。この記事では、Python の REST API を使用して PDF ドキュメントからテキストを抽出する方法を説明します。

この記事では次のトピックについて説明します。

ドキュメント パーサー REST API および Python SDK

PDF ドキュメントからテキストを抽出するには、GroupDocs.Parser Cloud の Python SDK API を使用します。これにより、Python は PDF からテキストを取得し、すべての一般的なドキュメント タイプからデータを解析できるようになります。 SDK を使用すると、テンプレートによるテキスト、画像の抽出、データの解析が可能です。また、クラウド API の ドキュメント パーサー ファミリ メンバー として、.NET、Java、PHP、Ruby、および Node.js SDK も提供します。

コンソールで次のコマンドを使用して、pip (Python 用パッケージ インストーラー) を使用して GroupDocs.Parser Cloud を Python プロジェクトにインストールできます。

pip install groupdocs_parser_cloud

手順と利用可能なコード例を開始する前に、ダッシュボード からクライアント ID とクライアント シークレットを取得してください。クライアント ID とシークレットを取得したら、以下に示すコードを追加します。

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python の REST API を使用して PDF からテキストを抽出する

以下の簡単な手順に従って、PDF ドキュメントからテキストを抽出できます。

ドキュメントをアップロードする

まず、以下のコード例を使用して PDF ドキュメントをアップロードし、PDF Python からテキストを取得します。

# APIの初期化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

その結果、アップロードされた PDF ファイル (sample.pdf) は、クラウド上のダッシュボードの ファイル セクション で利用できるようになります。これで、PDF からコンテンツを抽出する準備ができました。

Python を使用して PDF ドキュメントからテキストを抽出する

以下に説明する手順に従って、Python を使用してプログラムで PDF からテキストを簡単に抽出できます。

  • ParseApiのインスタンスを作成する
  • TextOptions の定義
  • PDFファイルへのパスを設定します
  • TextRequest の作成
  • ParseApi.text() メソッドを呼び出して結果を取得します

次のコード サンプルは、REST API を使用して PDF ドキュメントからすべてのテキストを抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
文書全体からテキストを抽出する

文書全体からテキストを抽出する

Python を使用して PDF ドキュメントからページ番号ごとにテキストを読み取る

以下に説明する手順に従って、プログラムを使用して PDF ファイルの特定のページからテキストを簡単に抽出できます。

  • ParseApiのインスタンスを作成する
  • TextOptions の定義
  • PDF ファイルへのパスを指定します
  • 開始ページ番号を設定する
  • 抽出するページ数を設定する
  • TextRequest の作成
  • ParseApi.text() メソッドを呼び出して結果を取得します

次のコード サンプルは、REST API を使用して、Python でページ番号の範囲に基づいて PDF から単語を抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
PDF ファイルからページ番号範囲でテキストを抽出する

ページ番号範囲によるテキストの抽出

Python を使用して PDF に添付されたドキュメントからテキストを取得する

以下に説明する手順に従って、コンテナ内のドキュメントからテキストを抽出し、プログラムで PDF ファイルの添付ファイルとして利用できます。

  • ParseApiのインスタンスを作成する
  • TextOptions の定義
  • PDFファイルへのパスを設定します
  • ContainerItemInfo の定義
  • 内部ドキュメントの相対パスを指定します。
  • 開始ページ番号を設定する
  • 抽出するページ数を設定する
  • TextRequest の作成
  • ParseApi.text() メソッドを呼び出して結果を取得します

次のコード サンプルは、REST API を使用して PDF ドキュメント内のドキュメントからテキストを抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
コンテナ内のドキュメントからテキストを抽出する

コンテナ内のドキュメントからテキストを抽出する

オンラインで試す

オンラインで無料でPDFからテキストを抽出する方法? PDF からテキストを無料で抽出するには、次の無料オンライン PDF 解析ツールをお試しください。この PDF テキスト抽出ツールは、上記の API を使用して開発されています。 https://products.groupdocs.app/parser/pdf

結論

この記事では、クラウド上の PDF ドキュメントからテキストを抽出する方法を学習しました。この記事では、プログラムで PDF ファイルをクラウドにアップロードする方法とオンラインの PDF テキスト抽出プログラムについても説明しました。さらに、ページ番号による PDF からのテキストのみの抽出と、添付文書の PDF からの Python テキスト抽出も学びました。

GroupDocs.Parser Cloud API の詳細については、ドキュメント を使用して学習できます。また、ブラウザーを通じて直接 API を視覚化し操作できるようにする API リファレンス セクションも提供しています。 PDF テキスト抽出および PDF Python からのテキスト抽出について不明な点がある場合は、フォーラム までお気軽にお問い合わせください。

関連項目