Python uygulamalarınızda PDF belgelerinden metin okuyup ayıklamanız gerekebilir. Böylece, bir Python geliştiricisi olarak, PDF belgelerinden tüm metni programlı olarak bulutta kolayca çıkarabilirsiniz. Bu makale, Python’da bir REST API kullanarak PDF belgelerinden nasıl metin çıkarılacağını açıklayacaktır.
Bu yazıda aşağıdaki konular ele alınacaktır:
Belge Ayrıştırıcı REST API ve Python SDK
Bir PDF belgesinden metin ayıklamak için GroupDocs.Parser Cloud’un Python SDK API’sini kullanacağım. Python’un pdf’den metin almasına ve tüm popüler belge türlerinden verileri ayrıştırmasına olanak tanır. SDK’yı kullanarak bir şablona göre metin, resim çıkarabilir ve verileri ayrıştırabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak .NET, Java, PHP, Ruby ve Node.js SDK’ları sağlar.
Konsolda aşağıdaki komutu kullanarak GroupDocs.Parser Cloud’u Python projenize pip (python için paket yükleyici) ile yükleyebilirsiniz:
pip install groupdocs_parser_cloud
Lütfen adımları ve mevcut kod örneklerini izlemeye başlamadan önce gösterge tablosundan İstemci Kimliğinizi ve İstemci Sırrınızı alın. Müşteri Kimliğinizi ve Sırrınızı aldıktan sonra, kodu aşağıda gösterildiği gibi ekleyin:
client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python’da bir REST API kullanarak PDF’den Metin Çıkarın
Aşağıda belirtilen basit adımları izleyerek PDF belgelerinden metin çıkarabilirsiniz:
- PDF dosyasını Buluta yükleyin
- Python Kullanarak PDF Belgelerinden Metin Çıkarın
- Python Kullanarak PDF Belgelerinden Metni Sayfa Numaralarına Göre Okuyun
- Python Kullanarak PDF Ekli Belgeden Metin Alın
Belgeyi Yükle
Her şeyden önce, aşağıda verilen kod örneğini kullanarak pdf python’dan metin almak için PDF belgesini yükleyin:
# api başlatma
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""
request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)
Sonuç olarak, yüklenen PDF dosyası (sample.pdf), bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır. Artık pdf’den içerik çıkarmaya hazırsınız.
Python kullanarak PDF Belgelerinden Metin Çıkarma
Aşağıda belirtilen adımları izleyerek programlı olarak python ile pdf’den kolayca metin çıkarabilirsiniz.
- Bir ParseApi örneği oluşturun
- TextOptions’ı tanımlayın
- PDF dosyasının yolunu ayarla
- Metin İsteği Oluştur
- ParseApi.text() yöntemini çağırarak sonuçları alın
Aşağıdaki kod örneği, bir REST API kullanarak PDF belgesindeki tüm metnin nasıl çıkarılacağını gösterir.
# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.text)
Python kullanarak PDF Belgelerinden Metni Sayfa Numaralarına Göre Okuyun
Aşağıda belirtilen adımları izleyerek bir PDF dosyasının belirli sayfalarından metni programlı olarak kolayca çıkarabilirsiniz.
- Bir ParseApi örneği oluşturun
- TextOptions’ı tanımlayın
- PDF dosyasının yolunu sağlayın
- Başlangıç sayfası numarasını ayarla
- ayıklanacak sayfa sayısını ayarlayın
- Metin İsteği Oluştur
- ParseApi.text() yöntemini çağırarak sonuçları alın
Aşağıdaki kod örneği, bir REST API kullanarak Python’da sayfa numaraları aralığına göre pdf’den sözcüklerin nasıl çıkarılacağını gösterir.
# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
for page in result.pages:
print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
Python Kullanarak PDF Ekli Belgeden Metin Alın
Aşağıda belirtilen adımları izleyerek, bir PDF dosyasına ek olarak sunulan bir kapsayıcı içindeki bir belgeden metni programlı olarak çıkarabilirsiniz.
- Bir ParseApi örneği oluşturun
- TextOptions’ı tanımlayın
- PDF dosyasının yolunu ayarla
- ContainerItemInfo’yu tanımlayın
- İç belgenin göreli yolunu sağlayın
- Başlangıç sayfası numarasını ayarla
- ayıklanacak sayfa sayısını ayarlayın
- Metin İsteği Oluştur
- ParseApi.text() yöntemini çağırarak sonuçları alın
Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesi içindeki bir belgeden metnin nasıl çıkarılacağını gösterir.
# api başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# metin seçeneklerini tanımla
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Text: " + result.pages[0].text)
Çevrimiçi Deneyin
Çevrimiçi pdf’den ücretsiz metin nasıl çıkarılır? Ücretsiz pdf’den metin çıkarmak için lütfen aşağıdaki ücretsiz çevrimiçi PDF Ayrıştırma aracını deneyin. Bu pdf metin çıkarıcı, yukarıdaki API kullanılarak geliştirilmiştir. https://products.groupdocs.app/parser/pdf
Çözüm
Bu makalede, buluttaki PDF belgelerinden nasıl metin çıkarılacağını öğrendiniz. Bu makale ayrıca bir PDF dosyasının programlı olarak buluta ve pdf metin çıkarıcıya çevrimiçi olarak nasıl yükleneceğini açıkladı. Ayrıca, pdf’den sadece sayfa numarasına göre metin çıkarmayı ve ekli belgeden pdf’den python metin çıkarmayı da öğrendik.
Belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Pdf metin çıkarma ve pdf python’dan metin çıkarma hakkında herhangi bir belirsizlik olması durumunda, lütfen forumdan bizimle iletişime geçmekten çekinmeyin.