Python の REST API を使用して PDF ドキュメントからテキストを抽出する

Python アプリケーションで PDF ドキュメントからテキストを読み取って抽出する必要がある場合があります。したがって、Python 開発者は、クラウド上でプログラムによって PDF ドキュメントからすべてのテキストを簡単に抽出できます。この記事では、Python の REST API を使用して PDF ドキュメントからテキストを抽出する方法を説明します。

この記事では次のトピックについて説明します。

ドキュメントパーサー REST API および Python SDK
REST APIを使用してPDFからテキストを抽出する

ドキュメントパーサー REST API および Python SDK

PDF ドキュメントからテキストを抽出するには、GroupDocs.Parser Cloud の Python SDK API を使用します。これにより、Python は PDF からテキストを取得し、すべての一般的なドキュメントタイプからデータを解析できるようになります。 SDK を使用すると、テンプレートによるテキスト、画像の抽出、データの解析が可能です。また、クラウド API のドキュメントパーサーファミリメンバーとして、.NET、Java、PHP、Ruby、および Node.js SDK も提供します。

コンソールで次のコマンドを使用して、pip (Python 用パッケージインストーラー) を使用して GroupDocs.Parser Cloud を Python プロジェクトにインストールできます。

pip install groupdocs_parser_cloud

手順と利用可能なコード例を開始する前に、ダッシュボードからクライアント ID とクライアントシークレットを取得してください。クライアント ID とシークレットを取得したら、以下に示すコードを追加します。

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python の REST API を使用して PDF からテキストを抽出する

以下の簡単な手順に従って、PDF ドキュメントからテキストを抽出できます。

PDFファイルをクラウドにアップロード
Python を使用して PDF ドキュメントからテキストを抽出
Python を使用して PDF ドキュメントからページ番号でテキストを読み取る
Python を使用して PDF に添付されたドキュメントからテキストを取得

ドキュメントをアップロードする

まず、以下のコード例を使用して PDF ドキュメントをアップロードし、PDF Python からテキストを取得します。

# APIの初期化
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

その結果、アップロードされた PDF ファイル (sample.pdf) は、クラウド上のダッシュボードのファイルセクションで利用できるようになります。これで、PDF からコンテンツを抽出する準備ができました。

Python を使用して PDF ドキュメントからテキストを抽出する

以下に説明する手順に従って、Python を使用してプログラムで PDF からテキストを簡単に抽出できます。

ParseApiのインスタンスを作成する
TextOptions の定義
PDFファイルへのパスを設定します
TextRequest の作成
ParseApi.text() メソッドを呼び出して結果を取得します

次のコードサンプルは、REST API を使用して PDF ドキュメントからすべてのテキストを抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)

Python を使用して PDF ドキュメントからページ番号ごとにテキストを読み取る

以下に説明する手順に従って、プログラムを使用して PDF ファイルの特定のページからテキストを簡単に抽出できます。

ParseApiのインスタンスを作成する
TextOptions の定義
PDF ファイルへのパスを指定します
開始ページ番号を設定する
抽出するページ数を設定する
TextRequest の作成
ParseApi.text() メソッドを呼び出して結果を取得します

次のコードサンプルは、REST API を使用して、Python でページ番号の範囲に基づいて PDF から単語を抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)

PDF ファイルからページ番号範囲でテキストを抽出する — *ページ番号範囲によるテキストの抽出*

Python を使用して PDF に添付されたドキュメントからテキストを取得する

以下に説明する手順に従って、コンテナ内のドキュメントからテキストを抽出し、プログラムで PDF ファイルの添付ファイルとして利用できます。

ParseApiのインスタンスを作成する
TextOptions の定義
PDFファイルへのパスを設定します
ContainerItemInfo の定義
内部ドキュメントの相対パスを指定します。
開始ページ番号を設定する
抽出するページ数を設定する
TextRequest の作成
ParseApi.text() メソッドを呼び出して結果を取得します

次のコードサンプルは、REST API を使用して PDF ドキュメント内のドキュメントからテキストを抽出する方法を示しています。

# APIの初期化
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# テキストオプションを定義する
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)

オンラインで試す

オンラインで無料でPDFからテキストを抽出する方法? PDF からテキストを無料で抽出するには、次の無料オンライン PDF 解析ツールをお試しください。この PDF テキスト抽出ツールは、上記の API を使用して開発されています。 https://products.groupdocs.app/parser/pdf

結論

この記事では、クラウド上の PDF ドキュメントからテキストを抽出する方法を学習しました。この記事では、プログラムで PDF ファイルをクラウドにアップロードする方法とオンラインの PDF テキスト抽出プログラムについても説明しました。さらに、ページ番号による PDF からのテキストのみの抽出と、添付文書の PDF からの Python テキスト抽出も学びました。

GroupDocs.Parser Cloud API の詳細については、ドキュメントを使用して学習できます。また、ブラウザーを通じて直接 API を視覚化し操作できるようにする API リファレンスセクションも提供しています。 PDF テキスト抽出および PDF Python からのテキスト抽出について不明な点がある場合は、フォーラムまでお気軽にお問い合わせください。

Python を使用して PDF からテキストを抽出する

ドキュメントパーサー REST API および Python SDK

Python の REST API を使用して PDF からテキストを抽出する

ドキュメントをアップロードする

Python を使用して PDF ドキュメントからテキストを抽出する

Python を使用して PDF ドキュメントからページ番号ごとにテキストを読み取る

Python を使用して PDF に添付されたドキュメントからテキストを取得する

オンラインで試す

結論

関連項目

ドキュメント パーサー REST API および Python SDK#

Python の REST API を使用して PDF からテキストを抽出する#

ドキュメントをアップロードする#

Python を使用して PDF ドキュメントからテキストを抽出する#

Python を使用して PDF ドキュメントからページ番号ごとにテキストを読み取る#

Python を使用して PDF に添付されたドキュメントからテキストを取得する#

オンラインで試す#

結論#

関連項目#

ドキュメントパーサー REST API および Python SDK

Python の REST API を使用して PDF からテキストを抽出する

ドキュメントをアップロードする

Python を使用して PDF ドキュメントからテキストを抽出する

Python を使用して PDF ドキュメントからページ番号ごとにテキストを読み取る

Python を使用して PDF に添付されたドキュメントからテキストを取得する

オンラインで試す

結論

関連項目