PDF belgelerinizi kolayca ayrıştırabilir ve tüm metni programlı olarak bulutta ayıklayabilirsiniz. Bu makalede, Node.js’de bir REST API kullanarak PDF belgelerinden metin çıkarmayı öğreneceksiniz.
Bu yazıda aşağıdaki konular ele alınacaktır:
- Metin Ayıklamak için PDF Parser REST API ve Node.js SDK
- Node.js’de bir REST API kullanarak PDF’den Metin Çıkarın
- Node.js kullanarak PDF Belgelerinden Sayfa Numaralarına Göre Metin Alın
- Node.js kullanarak PDF ile Eklenmiş Belgelerden Metin Çıkarma
Metin Ayıklamak için PDF Parser REST API ve Node.js SDK
PDF belgelerini ayrıştırmak için Node.js SDK of GroupDocs.Parser Cloud API’sini kullanacağım. 50’den fazla [desteklenen belge biçimi] türünden 3 verileri ayrıştırmanıza olanak tanır. Ayrıca, Node.js uygulamalarınızda ZIP arşivleri, OST posta veri dosyaları, e-kitaplar, biçimlendirmeler ve PDF portföyleri gibi kapsayıcıların ayrıştırılmasını da destekler. SDK’yı kullanarak bir şablonla metin, resim çıkarabilir ve verileri ayrıştırabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak .NET, Java, PHP, Ruby ve Python SDK’ları sağlar.
Konsolda aşağıdaki komutu kullanarak GroupDocs.Parser Cloud’u Node.js uygulamanıza yükleyebilirsiniz:
npm install groupdocs-parser-cloud
Belirtilen adımları izlemeden önce lütfen panodan Müşteri Kimliğinizi ve Sırrınızı alın. Kimliğinizi ve sırrınızı aldıktan sonra, kodu aşağıda gösterildiği gibi ekleyin:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
Node.js’de bir REST API kullanarak PDF’den Metin Çıkarın
Aşağıda belirtilen basit adımları izleyerek PDF belgelerinden metin çıkarabilirsiniz:
- PDF dosyasını Buluta Yükle
- Node.js kullanarak PDF Belgelerinden Metin Çıkarma
Belgeyi Yükle
Öncelikle, aşağıda verilen kod örneğini kullanarak PDF belgesini Buluta yükleyin:
// FileApi'yi Oluştur
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// Dosya yükleme isteği oluştur
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// Dosya yükleme
fileApi.uploadFile(request);
});
Sonuç olarak, yüklenen PDF dosyası, bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır.
Node.js kullanarak PDF Belgelerinden Metin Çıkarma
Aşağıda verilen adımları izleyerek PDF belgelerinden tüm metni programlı olarak kolayca çıkarabilirsiniz:
- ParseApi’nin bir örneğini oluşturun.
- FileInfo’nun bir örneğini oluşturun.
- Ardından, PDF dosyasının yolunu ayarlayın.
- TextOptions’ın bir örneğini oluşturun.
- Ardından, FileInfo’yu TextOptions’a atayın.
- Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
- Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın.
Aşağıdaki kod örneği, Node.js’de bir REST API kullanarak bir PDF belgesindeki tüm metnin nasıl çıkarılacağını gösterir.
// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Giriş dosyası
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);
// Metin ayıklayın
let result = await parseApi.text(request);
console.log(result.text);
Node.js kullanarak PDF Belgelerinden Sayfa Numaralarına Göre Metin Alın
Aşağıda verilen adımları izleyerek bir PDF dosyasının belirli sayfalarından metni programlı olarak çıkarabilirsiniz:
- ParseApi’nin bir örneğini oluşturun.
- FileInfo’nun bir örneğini oluşturun.
- Ardından, PDF dosyasının yolunu ayarlayın.
- TextOptions’ın bir örneğini oluşturun.
- Ardından, FileInfo’yu TextOptions’a atayın.
- Ayıklanacak başlangıç sayfa numarasını ve toplam sayfa sayısını ayarlayın.
- Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
- Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın.
Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesinden sayfa numaralarına göre metnin nasıl çıkarılacağını gösterir.
// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Giriş dosyası yolu
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);
// Metin ayıklayın
let result = await parseApi.text(request);
// Sonuçları göster
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js kullanarak PDF Ekli Belgelerden Metin Çıkarın
Aşağıda belirtilen adımları izleyerek, bir kapsayıcı içindeki bir belgeden, PDF dosyasına ek olarak programlı olarak metin çıkarabilirsiniz.
- ParseApi’nin bir örneğini oluşturun.
- FileInfo’nun bir örneğini oluşturun.
- Ardından, PDF dosyasının yolunu ayarlayın.
- İsteğe bağlı olarak, dosya parolasını sağlayın.
- Şimdi, ContainerItemInfo’nun bir örneğini oluşturun
- Ardından, ekli dosya için ilgili yolu ayarlayın
- TextOptions’ın bir örneğini oluşturun.
- Ardından, FileInfo ve ContainerItemInfo’yu TextOptions’a atayın.
- Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
- Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın
Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesi içindeki bir belgeden metnin nasıl çıkarılacağını gösterir.
// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// Giriş dosyası
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// Giriş kapsayıcısı öğesi
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);
// Metin ayıklayın
let result = await parseApi.text(request);
console.log(result.text);
Çevrimiçi Deneyin
Lütfen yukarıdaki API kullanılarak geliştirilen aşağıdaki ücretsiz çevrimiçi PDF Ayrıştırma aracını deneyin. https://products.groupdocs.app/parser/pdf
Çözüm
Bu makalede, PDF belgelerini bulutta nasıl ayrıştıracağınızı öğrendiniz. Ayrıca, Node.js’de bir REST API kullanarak sayfa numaralarına göre ve PDF dosyalarının kapsayıcı öğelerinden nasıl metin çıkarılacağını gördünüz. Bu makale ayrıca bir PDF dosyasının programlı olarak buluta nasıl yükleneceğini de açıkladı. Ayrıca belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Herhangi bir belirsizlik durumunda, lütfen forumda bizimle iletişime geçmekten çekinmeyin.