Node.js'de REST API kullanarak PDF'den Metin Çıkarın

PDF belgelerinizi kolayca ayrıştırabilir ve tüm metni programlı olarak bulutta ayıklayabilirsiniz. Bu makalede, Node.js’de bir REST API kullanarak PDF belgelerinden metin çıkarmayı öğreneceksiniz.

Bu yazıda aşağıdaki konular ele alınacaktır:

Metin Ayıklamak için PDF Parser REST API ve Node.js SDK

PDF belgelerini ayrıştırmak için Node.js SDK of GroupDocs.Parser Cloud API’sini kullanacağım. 50’den fazla [desteklenen belge biçimi] türünden 3 verileri ayrıştırmanıza olanak tanır. Ayrıca, Node.js uygulamalarınızda ZIP arşivleri, OST posta veri dosyaları, e-kitaplar, biçimlendirmeler ve PDF portföyleri gibi kapsayıcıların ayrıştırılmasını da destekler. SDK’yı kullanarak bir şablonla metin, resim çıkarabilir ve verileri ayrıştırabilirsiniz. Ayrıca Cloud API için belge ayrıştırıcı aile üyeleri olarak .NET, Java, PHP, Ruby ve Python SDK’ları sağlar.

Konsolda aşağıdaki komutu kullanarak GroupDocs.Parser Cloud’u Node.js uygulamanıza yükleyebilirsiniz:

npm install groupdocs-parser-cloud

Belirtilen adımları izlemeden önce lütfen panodan Müşteri Kimliğinizi ve Sırrınızı alın. Kimliğinizi ve sırrınızı aldıktan sonra, kodu aşağıda gösterildiği gibi ekleyin:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Node.js’de bir REST API kullanarak PDF’den Metin Çıkarın

Aşağıda belirtilen basit adımları izleyerek PDF belgelerinden metin çıkarabilirsiniz:

Belgeyi Yükle

Öncelikle, aşağıda verilen kod örneğini kullanarak PDF belgesini Buluta yükleyin:

// FileApi'yi Oluştur
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // Dosya yükleme isteği oluştur
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // Dosya yükleme
  fileApi.uploadFile(request);
});

Sonuç olarak, yüklenen PDF dosyası, bulut üzerindeki kontrol panelinizin dosyalar bölümünde mevcut olacaktır.

Node.js kullanarak PDF Belgelerinden Metin Çıkarma

Aşağıda verilen adımları izleyerek PDF belgelerinden tüm metni programlı olarak kolayca çıkarabilirsiniz:

  • ParseApi’nin bir örneğini oluşturun.
  • FileInfo’nun bir örneğini oluşturun.
  • Ardından, PDF dosyasının yolunu ayarlayın.
  • TextOptions’ın bir örneğini oluşturun.
  • Ardından, FileInfo’yu TextOptions’a atayın.
  • Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
  • Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın.

Aşağıdaki kod örneği, Node.js’de bir REST API kullanarak bir PDF belgesindeki tüm metnin nasıl çıkarılacağını gösterir.

// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Giriş dosyası
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);

// Metin ayıklayın
let result = await parseApi.text(request);
console.log(result.text);
Node.js'de bir REST API kullanarak PDF'den Metin Çıkarın

Node.js’de bir REST API kullanarak PDF’den Metin Çıkarın

Node.js kullanarak PDF Belgelerinden Sayfa Numaralarına Göre Metin Alın

Aşağıda verilen adımları izleyerek bir PDF dosyasının belirli sayfalarından metni programlı olarak çıkarabilirsiniz:

  • ParseApi’nin bir örneğini oluşturun.
  • FileInfo’nun bir örneğini oluşturun.
  • Ardından, PDF dosyasının yolunu ayarlayın.
  • TextOptions’ın bir örneğini oluşturun.
  • Ardından, FileInfo’yu TextOptions’a atayın.
  • Ayıklanacak başlangıç sayfa numarasını ve toplam sayfa sayısını ayarlayın.
  • Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
  • Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın.

Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesinden sayfa numaralarına göre metnin nasıl çıkarılacağını gösterir.

// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Giriş dosyası yolu
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);

// Metin ayıklayın
let result = await parseApi.text(request);

// Sonuçları göster
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js kullanarak PDF Belgelerinden Sayfa Numaralarına Göre Metin Alın

Node.js kullanarak PDF Belgelerinden Sayfa Numaralarına Göre Metin Alın

Node.js kullanarak PDF Ekli Belgelerden Metin Çıkarın

Aşağıda belirtilen adımları izleyerek, bir kapsayıcı içindeki bir belgeden, PDF dosyasına ek olarak programlı olarak metin çıkarabilirsiniz.

  • ParseApi’nin bir örneğini oluşturun.
  • FileInfo’nun bir örneğini oluşturun.
  • Ardından, PDF dosyasının yolunu ayarlayın.
  • İsteğe bağlı olarak, dosya parolasını sağlayın.
  • Şimdi, ContainerItemInfo’nun bir örneğini oluşturun
  • Ardından, ekli dosya için ilgili yolu ayarlayın
  • TextOptions’ın bir örneğini oluşturun.
  • Ardından, FileInfo ve ContainerItemInfo’yu TextOptions’a atayın.
  • Şimdi, TextOptions ile bir TextRequest örneği oluşturun.
  • Son olarak, TextRequest ile ParseApi.text() yöntemini çağırarak sonuçları alın

Aşağıdaki kod örneği, bir REST API kullanarak bir PDF belgesi içindeki bir belgeden metnin nasıl çıkarılacağını gösterir.

// API başlatma
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// Giriş dosyası
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// Giriş kapsayıcısı öğesi
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// Metin seçeneklerini tanımlayın
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// Metin isteği oluştur
let request = new groupdocs_parser_cloud.TextRequest(options);

// Metin ayıklayın
let result = await parseApi.text(request);
console.log(result.text);
Node.js kullanarak PDF Ekli Belgelerden Metin Çıkarın

Node.js kullanarak PDF Ekli Belgelerden Metin Çıkarın

Çevrimiçi Deneyin

Lütfen yukarıdaki API kullanılarak geliştirilen aşağıdaki ücretsiz çevrimiçi PDF Ayrıştırma aracını deneyin. https://products.groupdocs.app/parser/pdf

Çözüm

Bu makalede, PDF belgelerini bulutta nasıl ayrıştıracağınızı öğrendiniz. Ayrıca, Node.js’de bir REST API kullanarak sayfa numaralarına göre ve PDF dosyalarının kapsayıcı öğelerinden nasıl metin çıkarılacağını gördünüz. Bu makale ayrıca bir PDF dosyasının programlı olarak buluta nasıl yükleneceğini de açıkladı. Ayrıca belgeleri kullanarak GroupDocs.Parser Cloud API hakkında daha fazla bilgi edinebilirsiniz. Ayrıca, API’lerimizi doğrudan tarayıcı aracılığıyla görselleştirmenize ve bunlarla etkileşimde bulunmanıza olanak tanıyan bir API Referansı bölümü de sağlıyoruz. Herhangi bir belirsizlik durumunda, lütfen forumda bizimle iletişime geçmekten çekinmeyin.

Ayrıca bakınız