Bir Python geliştiricisiyseniz ve belgelerden veri çıkarmak istiyorsanız bu makale, basit Python örneklerini kullanarak çeşitli kelime işlem belgelerinden, elektronik tablolardan, sunumlardan ve PDF belgelerinden resim ayıklamanıza yardımcı olacaktır.
Bugün aşağıdaki konular ele alınacaktır:
- Görüntü Çıkarma REST API ve Python SDK
- Python kullanarak PDF Belgesinden Görüntüleri Çıkarın
- Python kullanarak Excel, PPT veya Word Belgelerinden Görüntü Çıkarma
Görüntü Çıkarma REST API ve Python SDK
Bu kez, farklı belge türlerinden görüntülerin çıkarılması için GroupDocs.Parser Cloud API’nin Python SDK‘sını kullanacağız. Ancak şu anda Bulut API’si için belge ayrıştırma aile üyeleri olarak .NET, Java, PHP, Ruby ve Node.js SDK’ları da sağlamaktadır.
API ayrıca kelime işlem belgeleri, elektronik tablolar, sunumlar, e-postalar, arşivler, biçimlendirme ve PDF belgeleri gibi çeşitli belge türlerinden görüntülerin çıkarılmasının yanı sıra metin ve meta veri ayıklamayı da destekler.
Hedefe gelecek olursak, adımları ve mevcut kod örneklerini izlemeye başlamadan önce dashboard’ten APP KEY ve APP SID’nizi alın.
Python kullanarak PDF’den Görüntüleri Çıkarın
Örnek olarak, önce görüntüleri bir PDF belgesinden çıkaracağım. Sadece basit adımları izleyerek, tüm görüntüler kolayca çıkarılabilir.
- PDF belgesini Buluta yükleyin.
- Görüntüleri yüklenen belgeden çıkarın.
- Ayıklanan görüntüleri indirin.
PDF Belgesini Yükle
İlk olarak, aşağıdaki yöntemlerden herhangi birini kullanarak PDF belgesini Buluta yükleyin:
- Gösterge panosunu kullanma.
- Tarayıcıdan Dosya Yükle API’sı kullanılarak.
- Belgelerde belirtildiği gibi programlı olarak.
Sonuç olarak, PDF dosyası Bulut Depolamaya yüklenecektir.
Yüklenen PDF Belgesinden Görüntüleri Çıkarın
Artık tüm fotoğrafları pdf’den çıkarmanın zor kısmıyla işiniz bitti. Aşağıdaki Python kodu, yüklenen PDF belgesindeki tüm görüntüleri hızlı bir şekilde çıkarmanıza olanak tanır.
# Python'da Word belgelerinden, Excel elektronik tablolarından, Sunumlardan veya PDF belgesinden resimler nasıl çıkarılır.
import groupdocs_parser_cloud
class ExtractImagesFromPDF:
@classmethod
def Run(cls):
# APP SID ve APP Anahtarını https://dashboard.groupdocs.cloud/ adresinden edinin.
configuration = groupdocs_parser_cloud.Configuration("xxxx-APP-SID-xxx", "xxxx APP KEY xxx")
configuration.api_base_url = "https://api.groupdocs.cloud"
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "documents/doc-with-images.pdf"
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
# Ayıklanan Resimlerin özelliklerini göster
for image in result.images:
print("Path: " + image.path)
print("Download url: " + image.download_url)
print("Image format: " + image.file_format)
print("Page index: " + str(image.page_index))
Çıkartılan Resimleri İndirin
Görüntüleri çıkardıktan sonra, görüntüleri buluttan panodan veya programlı olarak indirebilirsiniz. Burada gösterilen resimler, yukarıda gösterilen PDF belgesinden alınmıştır.
Python kullanarak Excel, PPT veya Word Belgelerinden Görüntü Çıkarma
Benzer şekilde, PDF belgesi için tam olarak yukarıda belirtilen python koduyla Word belgelerinden, elektronik tablolardan, sunumlardan tüm görüntüleri çıkarabilirsiniz. Dosya yolunu uzantılı doğru belge adıyla değiştirmeniz yeterlidir.
# Word belgelerinden, Excel elektronik tablolarından, Python'daki Sunumlardan görüntüleri ayıklayın.
options.file_info.file_path = "documents/doc-with-images.docx"
# Yalnızca belge yolunu ihtiyaca göre değiştirin (doc/docx, xls/xlsx, ppt/pptx, ...)
request = groupdocs_parser_cloud.ImagesRequest(options)
result = parseApi.images(request)
Document Online’dan Görüntüleri Çıkarın
Görüntüleri dosyadan veya belgeden çevrimiçi ücretsiz olarak nasıl ayıklayabilirim? Groupdocs.Parser, çevrimiçi word’den görüntüleri ayıklamak, pdf’den tüm görüntüleri çıkarmak, tüm resimleri bir powerpoint’e kaydetmek veya xlsx python’dan görüntüleri çıkarmak için bir ücretsiz çevrimiçi araç sağlar. jpg, png, jpeg veya gif resimlerini çıkartmak istediğiniz belgeyi seçmeniz yeterlidir.
Çevrimiçi pdf’den ücretsiz resim ayıklayın, çevrimiçi excel’den resim ayıklayın, çevrimiçi kelimeden resim ayıklayın ve çevrimiçi pptx’ten resim ayıklayın araçları, Groupdocs.Parser Python API’si.
Çözüm
Bu makalede, Python kullanarak Word, Excel, PowerPoint, PDF ve diğer belgelerden programlı olarak görüntülerin nasıl çıkarılacağını öğrendik. Kodda fark yok, sadece kaynak belge yolunu ve türünü değiştirmemiz gerekiyor.
Daha fazla özellik ve belge ayrıştırma API’sı hakkında daha fazla bilgi edinmek için örnekleri de içeren makaleler için belgeleri ziyaret edin. Vurgulanan özellikleri test etmenin en iyi yolu, GitHub’taki açık kaynaklı çalışan örnekleri deneyimlemektir. Herhangi bir karışıklık durumunda, GroupDocs Destek Ekibi size yardımcı olmaktan mutluluk duyar. Teşekkürler
Bir soru sor
Python kullanarak PDF, XLSX, PPTX veya Word DOCX’ten görüntülerin nasıl çıkarılacağına ilişkin herhangi bir sorunuz varsa, lütfen Ücretsiz Destek Forumu adresinden bize sorabilirsiniz. )
Ayrıca bakınız
- Node.js kullanarak PDF’den tüm görüntüleri ayıklayın ve PDF’den çevrimiçi görüntüleri ayıklayın
- PDF’den otomatik veri çıkarma ve çevrimiçi PDF python’dan veri çıkarma
- PDF python’dan görüntüleri ayıklayın ve Python kullanarak PDF acrobat’tan görüntüleri çıkarın
- Node.js’de REST API kullanılarak kelime belgesinden belirli veriler nasıl çıkarılır?
- PDF’den veri ayıklamak için PDF javascript ve en iyi programlama dilinden veri ayıklayın
- Python’da REST API kullanarak kelime belgesi python’dan tabloları çıkarın