Jika Anda pernah mencoba untuk menyalin data secara manual dari sebuah PDF, Anda tahu betapa membosankannya hal itu—terutama untuk dokumen yang besar atau banyak. Dengan .NET Cloud SDK kami, Anda dapat mengotomatiskan proses ini dan mengekstrak teks dari PDF secara programatik hanya dengan beberapa baris kode C#.
Dalam tutorial yang ramah pemula ini, Anda akan belajar bagaimana cara mengekstrak teks dari dokumen PDF dalam C# .NET, apakah Anda ingin membaca semua teks, mengekstrak berdasarkan rentang halaman tertentu, atau bahkan mem-parsing teks dari file yang tersemat di dalam sebuah PDF.
- PDF Parser API
- Extract PDF Text menggunakan C#
- Ekstrak Teks dari Rentang Halaman menggunakan C#
- Ekstrak Teks dari Dokumen Terlampir
PDF Parser API
GroupDocs.Parser Cloud SDK for .NET adalah API luar biasa yang menawarkan kemampuan untuk memanipulasi file PDF secara programatik online. Tidak hanya menawarkan kemampuan pembuatan atau konversi PDF, tetapi Anda juga dapat dengan mudah mengekstrak elemen file PDF seperti Teks, Gambar, Lampiran, Penanda, dll. Dalam artikel ini, kami fokus pada ekstraksi teks dari file PDF menggunakan .NET Cloud SDK.
🔧 Prasyarat
Sebelum kita memulai proses manipulasi PDF, kita perlu memastikan bahwa komponen berikut terinstal:
- Akun GroupDocs Cloud – daftar untuk mendapatkan Client ID dan Secret.
- .NET 6.0 atau yang lebih tinggi terinstal.
- Visual Studio atau IDE lain yang mendukung pengembangan .NET.
Instalasi
Instal SDK langsung dari Pengelola Paket NuGet:
Install-Package GroupDocs.Parser-Cloud
Ekstrak Teks PDF menggunakan C#
Silakan ikuti langkah-langkah yang diberikan di bawah ini untuk secara programatis mendapatkan teks dari file PDF:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
Inisialisasi sebuah instance dari ParseApi
dengan mengoper objek Configuration sebagai argumen.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
Baca file PDF yang diinput dari drive lokal dan unggah ke penyimpanan cloud dengan memanggil metode UploadFile(...)
dari kelas UploadFileRequest.
// Untuk lebih banyak contoh, silakan kunjungi https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: Menentukan file mana yang akan diekstrak teksnya.
- TextRequest: Mengirim permintaan ke cloud.
- parseApi.Text(): Mengembalikan konten teks yang diekstrak.
Ekstrak Teks dari Rentang Halaman menggunakan C#
Jika Anda hanya membutuhkan teks dari halaman tertentu (misalnya, halaman 2 sampai 4), Anda dapat menentukan rentang halaman seperti ini:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
Ekstrak Teks dari Dokumen Terlampir
Beberapa PDF berisi lampiran seperti Word, Excel, atau PDF lainnya di dalamnya. SDK memungkinkan Anda mengekstrak teks bahkan dari dokumen yang disematkan tersebut:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
Coba Online
Tidak ingin mengkode saat ini? Cobalah pengambil teks PDF online gratis . Ini didukung oleh REST API, memungkinkan Anda untuk segera mengekstrak teks dari dokumen PDF mana pun.

Kesimpulan
Dalam panduan ini, Anda belajar bagaimana untuk:
- Ekstrak teks dari file PDF menggunakan C# .NET.
- Unggah dan analisis dokumen di cloud.
- Ambil teks berdasarkan rentang halaman atau dari file yang dilampirkan.
API Cloud kami memudahkan pengembang untuk otomatisasi ekstraksi teks PDF tanpa menghadapi logika penguraian PDF yang rendah.