Jika Anda pernah mencoba untuk menyalin data secara manual dari sebuah PDF, Anda tahu betapa membosankannya hal itu—terutama untuk dokumen yang besar atau banyak. Dengan .NET Cloud SDK kami, Anda dapat mengotomatiskan proses ini dan mengekstrak teks dari PDF secara programatik hanya dengan beberapa baris kode C#.

Dalam tutorial yang ramah pemula ini, Anda akan belajar bagaimana cara mengekstrak teks dari dokumen PDF dalam C# .NET, apakah Anda ingin membaca semua teks, mengekstrak berdasarkan rentang halaman tertentu, atau bahkan mem-parsing teks dari file yang tersemat di dalam sebuah PDF.

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET adalah API luar biasa yang menawarkan kemampuan untuk memanipulasi file PDF secara programatik online. Tidak hanya menawarkan kemampuan pembuatan atau konversi PDF, tetapi Anda juga dapat dengan mudah mengekstrak elemen file PDF seperti Teks, Gambar, Lampiran, Penanda, dll. Dalam artikel ini, kami fokus pada ekstraksi teks dari file PDF menggunakan .NET Cloud SDK.

🔧 Prasyarat

Sebelum kita memulai proses manipulasi PDF, kita perlu memastikan bahwa komponen berikut terinstal:

  • Akun GroupDocs Cloud – daftar untuk mendapatkan Client ID dan Secret.
  • .NET 6.0 atau yang lebih tinggi terinstal.
  • Visual Studio atau IDE lain yang mendukung pengembangan .NET.

Instalasi

Instal SDK langsung dari Pengelola Paket NuGet:

Install-Package GroupDocs.Parser-Cloud

Ekstrak Teks PDF menggunakan C#

Silakan ikuti langkah-langkah yang diberikan di bawah ini untuk secara programatis mendapatkan teks dari file PDF:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

Inisialisasi sebuah instance dari ParseApi dengan mengoper objek Configuration sebagai argumen.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Baca file PDF yang diinput dari drive lokal dan unggah ke penyimpanan cloud dengan memanggil metode UploadFile(...) dari kelas UploadFileRequest.

// Untuk lebih banyak contoh, silakan kunjungi https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: Menentukan file mana yang akan diekstrak teksnya.
  • TextRequest: Mengirim permintaan ke cloud.
  • parseApi.Text(): Mengembalikan konten teks yang diekstrak.

Ekstrak Teks dari Rentang Halaman menggunakan C#

Jika Anda hanya membutuhkan teks dari halaman tertentu (misalnya, halaman 2 sampai 4), Anda dapat menentukan rentang halaman seperti ini:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

Ekstrak Teks dari Dokumen Terlampir

Beberapa PDF berisi lampiran seperti Word, Excel, atau PDF lainnya di dalamnya. SDK memungkinkan Anda mengekstrak teks bahkan dari dokumen yang disematkan tersebut:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

Coba Online

Tidak ingin mengkode saat ini? Cobalah pengambil teks PDF online gratis . Ini didukung oleh REST API, memungkinkan Anda untuk segera mengekstrak teks dari dokumen PDF mana pun.

bandingkan file excel secara online

Kesimpulan

Dalam panduan ini, Anda belajar bagaimana untuk:

  • Ekstrak teks dari file PDF menggunakan C# .NET.
  • Unggah dan analisis dokumen di cloud.
  • Ambil teks berdasarkan rentang halaman atau dari file yang dilampirkan.

API Cloud kami memudahkan pengembang untuk otomatisasi ekstraksi teks PDF tanpa menghadapi logika penguraian PDF yang rendah.

Tautan Berguna

Lihat Juga