Çeşitli durumlarda, Word belgelerini ayrıştırmamız ve görüntüleri veya metni çıkarmamız gerekebilir. Word belgelerinden görüntülerin ve metnin çıkarılması, metni analiz etmek, yeniden kullanmak veya başka belgelerde birleştirmek için yardımcı olabilir. DOC veya DOCX dosyalarını kolayca ayrıştırabilir ve tüm görüntüleri/metni programlı olarak bulutta ayıklayabiliriz. Bu yazıda, Python’da bir REST API kullanarak Word belgelerini nasıl ayrıştıracağımızı öğreneceğiz.
Bu yazıda aşağıdaki konular ele alınacaktır:
- Word Belge Ayrıştırıcı REST API ve Python SDK
- Python’da REST API kullanarak Word Belgelerini Ayrıştırın ve Görüntüleri Çıkarın
- Python’da REST API kullanarak Word Belgelerinden Metin Çıkarma
Word Belge Ayrıştırıcı REST API ve Python SDK
Word belgelerini ayrıştırmak için GroupDocs.Parser Cloud’un Python SDK’sı API’sini kullanacağız. Bir belgeyi ayrıştırmak için lütfen konsolda aşağıdaki komutu kullanarak kurun:
pip install groupdocs_parser_cloud
Lütfen belirtilen adımları uygulamadan önce panodan Müşteri Kimliğinizi ve Sırrınızı alın. Kimliğinizi ve sırrınızı aldıktan sonra, kodu aşağıda gösterildiği gibi ekleyin:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
Python’da REST API kullanarak Word Belgelerini Ayrıştırın ve Görüntüleri Çıkarın
Aşağıda verilen adımları izleyerek Word belgelerini ayrıştırabilir ve görüntüleri programlı olarak ayıklayabiliriz:
- DOCX dosyasını Buluta Yükle
- Python Kullanarak Word Belgelerinden Görüntüleri Çıkarın
- Ayıklanan görüntüleri İndir
Belgeyi Yükle
Öncelikle Word belgesini (DOCX) aşağıda verilen kod örneğini kullanarak Buluta yükleyeceğiz:
# API örneğini oluşturun
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Dosya yükleme isteği oluştur
request = groupdocs_parser_cloud.UploadFileRequest("sample.docx", "C:\\Files\\parser\\sample.docx", my_storage)
# Dosya yükleme
response = file_api.upload_file(request)
Sonuç olarak, yüklenen DOCX dosyası, bulut üzerindeki kontrol panelinin dosyalar bölümünde mevcut olacaktır.
Python kullanarak Word Belgelerinden Görüntüleri Çıkarın
Aşağıda verilen adımları izleyerek tüm görüntüleri programlı olarak Word belgelerinden kolayca çıkarabiliriz.
- İlk olarak, ParseApi’nin bir örneğini oluşturun.
- Ardından, FileInfo’nun bir örneğini oluşturun.
- Ardından, giriş DOCX dosyasının yolunu ayarlayın.
- Ardından, ImageOptions’ın bir örneğini oluşturun.
- Ardından, FileInfo’yu ImageOptions’a atayın.
- Bundan sonra, bağımsız değişken olarak ImageOptions ile ImagesRequest oluşturun.
- Son olarak, ImageRequest ile ParseApi.images() yöntemini çağırarak görüntüleri çıkarın.
Aşağıdaki kod örneği, Python’da belge ayrıştırma REST API’sini kullanarak bir DOCX dosyasından görüntülerin nasıl çıkarılacağını gösterir.
# API başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Görüntü seçeneklerini tanımlayın
options = groupdocs_parser_cloud.ImagesOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Görüntü isteği oluştur
request = groupdocs_parser_cloud.ImagesRequest(options)
# Görüntüleri al
result = parseApi.images(request)
Ayıklanan Resimleri İndir
Yukarıdaki kod örneği, çıkarılan görüntüleri bulutta kelime dosyası ayrıştırıcısı ile kaydedecektir. Aşağıda verilen kod örneğini kullanarak bu görselleri indirebiliriz:
# API başlatmaları
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
folder_api = groupdocs_parser_cloud.FolderApi.from_config(configuration)
# Dosya listesini al
request = groupdocs_parser_cloud.GetFilesListRequest("parser/images/sample_docx/", my_storage);
response = folder_api.get_files_list(request)
# Resimleri tek tek indirin
for data in response.value:
# İndirme dosyası isteği oluştur
request = groupdocs_parser_cloud.DownloadFileRequest(data.path, my_storage)
# Dosyayı indir
response = file_api.download_file(request)
# İndirilen dosyayı çalışma dizininize taşıyın
shutil.move(response, "C:\\Files\\parser\\")
Python’da REST API kullanarak Word Belgelerinden Metin Çıkarma
Aşağıda verilen adımları izleyerek tüm metni programlı olarak Word belgelerinden kolayca çıkarabiliriz.
- İlk olarak, ParseApi’nin bir örneğini oluşturun.
- Ardından, FileInfo’nun bir örneğini oluşturun.
- Ardından, giriş DOCX dosyasının yolunu ayarlayın.
- Ardından, TextOptions’ın bir örneğini oluşturun.
- Ardından, FileInfo’yu TextOptions’a atayın.
- Bundan sonra, bağımsız değişken olarak TextOptions ile TextRequest oluşturun.
- Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın.
Aşağıdaki kod örneği, docx ayrıştırıcı REST API kullanılarak bir DOCX dosyasından nasıl metin çıkarılacağını gösterir.
# API başlatma
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# Metin seçeneklerini tanımlayın
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.docx"
# Metin isteği oluştur
request = groupdocs_parser_cloud.TextRequest(options)
# Metin al
result = parseApi.text(request)
print("Text: " + result.text)
Çevrimiçi Deneyin
Belge ayrıştırma yazılımı çevrimiçi ücretsiz olarak nasıl kullanılır? Lütfen yukarıdaki ayrıştırma sözcüğü belgesi python API’si kullanılarak geliştirilen aşağıdaki ücretsiz çevrimiçi DOCX Ayrıştırma aracını deneyin. https://products.groupdocs.app/parser/docx
Çözüm
Bu yazıda, bulutta kelime ayrıştırıcı kullanarak Word belgelerinin nasıl ayrıştırılacağını öğrendik. Ayrıştırma docx Python kullanarak DOCX dosyalarından görüntülerin ve metinlerin nasıl çıkarılacağını da gördük. Bu makalede ayrıca bir DOCX dosyasının programlı olarak buluta nasıl yükleneceği ve buluttan çıkarılan görüntülerin nasıl indirileceği açıklanmaktadır. Ayrıca, belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Belge ayrıştırma ve dosyaları ayrıştırma konusunda herhangi bir belirsizlik olması durumunda, lütfen forumdan bizimle iletişime geçmekten çekinmeyin.