Python PDF ドキュメントからテキストを抽出する

PDF (Portable Document Format) は、ドキュメントの表示と交換に使用される最も重要で広く使用されているファイル形式の 1 つです。 Python 開発者として、テキスト分析に Python を使用して PDF ドキュメントからテキストを抽出し、別の形式でエクスポートしたいというシナリオが数多くあります。この投稿では、GroupDocs.Conversion Cloud SDK for Python を使用して PDF ドキュメントからテキストを正確に抽出する方法を説明します。

GroupDocs.Conversion Cloud は、サードパーティ アプリケーションに依存せずにドキュメントと画像を変換する、プラットフォームに依存しない REST API ソリューションです。 50 種類以上のドキュメントをある形式から別の形式に変換します。 Python を含むすべての一般的なプログラミング言語用の SDK が提供されているため、開発者は基盤となる REST API 呼び出しを気にすることなく、アプリケーションで API を直接使用できます。

コードを開始しましょう:

GroupDocs.Conversion クラウド パッケージをインストールする

まず最初に、次のコマンドで pypi から groupdocs-conversion-cloud パッケージをインストールします。

>pip インストール groupdocs-conversion-cloud

Python PDF テキスト抽出の例

PDF ドキュメントからテキストを抽出するには、次の手順に従います。

  • groupdocs.cloud に無料でサインアップ to get your AppSID and AppKey
  • Python モジュールを作成し、次のコードをコピーしてその中に貼り付けます。 PDF ドキュメントのテキストを抽出するためにデフォルトのオプションを使用しました。テキスト形式の変換オプションを使用すると、特定のページのテキストを抽出することもできます。
# インポートモジュール
import groupdocs_conversion_cloud

# https://dashboard.groupdocs.cloud で app_sid と app_key を取得します (無料の登録が必要です)。
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# APIのインスタンスを作成する
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • お気に入りの IDE でコードを実行すると、次の出力が得られます。これで完了です。任務は達成されました!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

GroupDocs.Conversion Cloud API に関するご意見を共有するには、お気軽に サポート フォーラム にコメントを投稿してください。または、ご提案がある場合、または REST API に期待される特定の機能が必要な場合はお知らせください。