Python kullanarak PDF'den Metin Çıkarma

Python uygulamalarınızda PDF belgelerinden metin okuyup ayıklamanız gerekebilir. Böylece, bir Python geliştiricisi olarak, PDF belgelerinden tüm metni programlı olarak bulutta kolayca çıkarabilirsiniz. Bu makale, Python’da bir REST API kullanarak PDF belgelerinden nasıl metin çıkarılacağını açıklayacaktır.

Bu yazıda aşağıdaki konular ele alınacaktır:

Belge Ayrıştırıcı REST API ve Python SDK

Bir PDF belgesinden metin ayıklamak için GroupDocs.Parser Cloud’un Python SDK API’sini kullanacağım. Python’un pdf’den metin almasına ve tüm popüler belge türlerinden verileri ayrıştırmasına olanak tanır. SDK’yı kullanarak bir şablona göre metin, resim çıkarabilir ve verileri ayrıştırabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak .NET, Java, PHP, Ruby ve Node.js SDK’ları sağlar.

Konsolda aşağıdaki komutu kullanarak GroupDocs.Parser Cloud’u Python projenize pip (python için paket yükleyici) ile yükleyebilirsiniz:

pip install groupdocs_parser_cloud

Lütfen adımları ve mevcut kod örneklerini izlemeye başlamadan önce gösterge tablosundan İstemci Kimliğinizi ve İstemci Sırrınızı alın. Müşteri Kimliğinizi ve Sırrınızı aldıktan sonra, kodu aşağıda gösterildiği gibi ekleyin:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

Python’da bir REST API kullanarak PDF’den Metin Çıkarın

Aşağıda belirtilen basit adımları izleyerek PDF belgelerinden metin çıkarabilirsiniz:

Belgeyi Yükle

Her şeyden önce, aşağıda verilen kod örneğini kullanarak pdf python’dan metin almak için PDF belgesini yükleyin:

# api başlatma
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

Sonuç olarak, yüklenen PDF dosyası (sample.pdf), bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır. Artık pdf’den içerik çıkarmaya hazırsınız.

Python kullanarak PDF Belgelerinden Metin Çıkarma

Aşağıda belirtilen adımları izleyerek programlı olarak python ile pdf’den kolayca metin çıkarabilirsiniz.

  • Bir ParseApi örneği oluşturun
  • TextOptions’ı tanımlayın
  • PDF dosyasının yolunu ayarla
  • Metin İsteği Oluştur
  • ParseApi.text() yöntemini çağırarak sonuçları alın

Aşağıdaki kod örneği, bir REST API kullanarak PDF belgesindeki tüm metnin nasıl çıkarılacağını gösterir.

# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
Metni Tüm Belgeden Çıkarın

Metni Tüm Belgeden Çıkarın

Python kullanarak PDF Belgelerinden Metni Sayfa Numaralarına Göre Okuyun

Aşağıda belirtilen adımları izleyerek bir PDF dosyasının belirli sayfalarından metni programlı olarak kolayca çıkarabilirsiniz.

  • Bir ParseApi örneği oluşturun
  • TextOptions’ı tanımlayın
  • PDF dosyasının yolunu sağlayın
  • Başlangıç sayfası numarasını ayarla
  • ayıklanacak sayfa sayısını ayarlayın
  • Metin İsteği Oluştur
  • ParseApi.text() yöntemini çağırarak sonuçları alın

Aşağıdaki kod örneği, bir REST API kullanarak Python’da sayfa numaraları aralığına göre pdf’den sözcüklerin nasıl çıkarılacağını gösterir.

# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Bir Sayfa Numarası Aralığı ile pdf dosyasından metin ayıklayın

Metni Sayfa Numarası Aralığına Göre Çıkarın

Python Kullanarak PDF Ekli Belgeden Metin Alın

Aşağıda belirtilen adımları izleyerek, bir PDF dosyasına ek olarak sunulan bir kapsayıcı içindeki bir belgeden metni programlı olarak çıkarabilirsiniz.

  • Bir ParseApi örneği oluşturun
  • TextOptions’ı tanımlayın
  • PDF dosyasının yolunu ayarla
  • ContainerItemInfo’yu tanımlayın
  • İç belgenin göreli yolunu sağlayın
  • Başlangıç sayfası numarasını ayarla
  • ayıklanacak sayfa sayısını ayarlayın
  • Metin İsteği Oluştur
  • ParseApi.text() yöntemini çağırarak sonuçları alın

Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesi içindeki bir belgeden metnin nasıl çıkarılacağını gösterir.

# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
Bir Kabın İçindeki Bir Belgeden Metin Çıkarma

Bir Kabın İçindeki Bir Belgeden Metin Çıkarma

Çevrimiçi Deneyin

Çevrimiçi pdf’den ücretsiz metin nasıl çıkarılır? Ücretsiz pdf’den metin çıkarmak için lütfen aşağıdaki ücretsiz çevrimiçi PDF Ayrıştırma aracını deneyin. Bu pdf metin çıkarıcı, yukarıdaki API kullanılarak geliştirilmiştir. https://products.groupdocs.app/parser/pdf

Çözüm

Bu makalede, buluttaki PDF belgelerinden nasıl metin çıkarılacağını öğrendiniz. Bu makale ayrıca bir PDF dosyasının programlı olarak buluta ve pdf metin çıkarıcıya çevrimiçi olarak nasıl yükleneceğini açıkladı. Ayrıca, pdf’den sadece sayfa numarasına göre metin çıkarmayı ve ekli belgeden pdf’den python metin çıkarmayı da öğrendik.

Belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Pdf metin çıkarma ve pdf python’dan metin çıkarma hakkında herhangi bir belirsizlik olması durumunda, lütfen forumdan bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız