Python Bir PDF Belgesinden Metin Çıkarın

PDF (Taşınabilir Belge Formatı), belgeleri sunmak ve değiştirmek için kullanılan en önemli ve yaygın olarak kullanılan dosya formatlarından biridir. Bir python geliştiricisi olarak, metin analizi için Python kullanarak bir PDF belgesinden metin ayıklamak ve farklı bir biçimde dışa aktarmak isteyeceğiniz birçok senaryo vardır. Bu gönderide, GroupDocs.Conversion Cloud SDK for Python kullanarak bir PDF belgesinden doğru şekilde nasıl metin çıkaracağınızı göstereceğiz.

GroupDocs.Conversion Cloud, herhangi bir üçüncü taraf uygulamasına bağlı olmadan, platformdan bağımsız bir REST API belge ve görüntü dönüştürme çözümüdür. 50’den fazla belge türünü bir biçimden diğerine dönüştürür. Python da dahil olmak üzere tüm popüler programlama dilleri için SDK’ler sunar, böylece geliştiriciler, temel REST API çağrıları hakkında endişelenmeden API’yi doğrudan uygulamalarında kullanabilirler.

Kodu başlatalım:

GroupDocs.Conversion Bulut Paketini Kurun

İlk olarak, pypi adresinden groupdocs-conversion-cloud paketini aşağıdaki komutla kurun.

>pip kurulumu groupdocs-conversion-cloud

Python PDF Metin Çıkarma Örneği

Bir PDF Belgesinden metin çıkarmak için şu adımları izleyeceğiz:

  • groupdocs.cloud’a ücretsiz kaydolun to get your AppSID and AppKey
  • Bir python modülü oluşturun ve aşağıdaki kodu içine kopyalayıp yapıştırın. PDF belgesinin metnini çıkarmak için varsayılan seçenekleri kullandık. Metin biçiminin Dönüştürme Seçenekleri’ni kullanarak da belirli sayfaların metnini çıkarabilirsiniz.
# Modülü içe aktar
import groupdocs_conversion_cloud

# app_sid ve app_key'inizi https://dashboard.groupdocs.cloud adresinden alın (ücretsiz kayıt gereklidir).
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# API örneğini oluşturun
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • Kodu favori IDE’nizde çalıştırın, aşağıdaki çıktıyı alacaksınız ve bu kadar. Görev tamamlandı!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

Destek forumunda bize GroupDocs.Conversion Cloud API hakkındaki düşüncelerinizi paylaşan bir yorum bırakmaktan çekinmeyin. Veya herhangi bir öneriniz varsa veya REST API’mizin sahip olmasını beklediğiniz belirli özelliklere ihtiyacınız varsa bize bildirin.