Eğer bir PDF dosyasından verileri manuel olarak kopyalamaya çalıştıysanız, bunun ne kadar zahmetli olabileceğini bilirsiniz—özellikle büyük veya birden fazla belge için. .NET Cloud SDK’mız ile bu süreci otomatikleştirebilir ve yalnızca birkaç satır C# kodu kullanarak PDF’lerden metin çıkarabilirsiniz.

Bu başlangıç dostu eğitimde, C# .NET kullanarak PDF belgelerinden metin çıkarmayı öğreneceksiniz; tüm metni okumak, belirli sayfa aralıklarına göre çıkarmak ya da hatta bir PDF’nin içine yerleştirilmiş dosyalardan metin ayrıştırmak isteyip istemediğinize bağlı olarak.

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET harika bir API’dir ve çevrimiçi PDF dosyalarını programlı bir şekilde manipüle etme yetenekleri sunar. Sadece PDF oluşturma veya dönüştürme yetenekleri sunmakla kalmaz, aynı zamanda PDF dosyası unsurlarını, örneğin Metin, Resim, Ekler, Yer İşaretleri vb. kolayca çıkartabilirsiniz. Bu makalede, .NET Cloud SDK kullanarak PDF dosyasından metin çıkarmaya odaklanıyoruz.

🔧 Ön Koşullar

PDF manipülasyon sürecine başlamadan önce, aşağıdaki bileşenlerin yüklü olduğundan emin olmalıyız:

  • Bir GroupDocs Cloud hesabı – Client ID and Secret almak için kaydolun.
  • .NET 6.0 veya daha yüksek sürüm yüklü.
  • Visual Studio ya da .NET geliştirmeyi destekleyen herhangi bir IDE.

Kurulum

SDK’yı doğrudan NuGet Paket Yöneticisi’nden yükleyin:

Install-Package GroupDocs.Parser-Cloud

C# kullanarak PDF Metni Çıkarın

Lütfen aşağıdaki adımları izleyerek PDF dosyasından programlı olarak metin alın:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

ParseApi örneğini başlatmak için bir Configuration nesnesini argüman olarak geçirin.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Yerel sürücünüzden giriş PDF dosyasını okuyun ve UploadFileRequest sınıfının UploadFile(...) yöntemini çağırarak bulut depolama alanına yükleyin.

// Daha fazla örnek için lütfen https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet adresini ziyaret edin.

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Hangi dosyadan metin çıkarılacağını tanımlar.
  • TextRequest: Clouda isteği gönderir.
  • parseApi.Text(): Çıkarılan metin içeriğini döndürür.

Sayfalar Aralığından Metin Çıkartma C# Kullanarak

Eğer yalnızca belirli sayfalardan metin gerekiyorsa (örneğin, sayfalar 2 ile 4 arası), sayfa aralığını şöyle belirtebilirsiniz:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Ekli Belgelerden Metin Çıkartın

Bazı PDF’ler Word, Excel veya başka bir PDF gibi ekleri içerir. SDK, o gömülü belgelerden bile metin çıkarmanızı sağlar:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Çevrimiçi Deneyin

Henüz kod yazmak istemiyor musunuz? Ücretsiz online PDF metin çıkarıcıyı deneyin. REST API ile desteklenmektedir, böylece herhangi bir PDF belgesinden anında metin çıkartabilirsiniz.

çevrimiçi excel dosyalarını karşılaştır

Sonuç

Bu kılavuzda şunları öğrendiniz:

  • PDF dosyalarından metin çıkarma C# .NET kullanarak.
  • Belgedeğiştirme ve bulutta belgeleri ayrıştırma.
  • Sayfa aralığına veya ekli dosyalardan metin al.

Cloud API’miz, geliştiricilerin düşük seviyeli PDF ayrıştırma mantığıyla uğraşmadan PDF metin çıkarmayı otomatikleştirmesini kolaylaştırır.

Faydalı Bağlantılar

Ayrıca Bakınız