اگر شما تا به حال سعی کردهاید دادهها را به صورت دستی از یک PDF کپی کنید، میدانید که چقدر میتواند خسته کننده باشد—خصوصاً برای اسناد بزرگ یا چندگانه. با استفاده از SDK ابری .NET ما، میتوانید این فرآیند را خودکار کنید و متن را به صورت برنامهنویسی از PDFها استخراج کنید و فقط با چند خط کد C# این کار را انجام دهید.
در این آموزش مبتدیپسند، شما یاد خواهید گرفت که چگونه متن را از اسناد PDF در C# .NET استخراج کنید، خواه بخواهید تمام متن را بخوانید، بر اساس محدوده صفحات خاص استخراج کنید، یا حتی متن را از فایلهای جاسازی شده درون یک PDF تجزیه کنید.
- API تجزیه PDF
- متن PDF را با استفاده از C# استخراج کنید
- متن را از بازه صفحات با استفاده از C# استخراج کنید
- متن را از مدارک پیوست شده استخراج کنید
API تجزیه PDF
GroupDocs.Parser Cloud SDK for .NET یک API شگفتانگیز است که قابلیتهای دستکاری فایلهای PDF به صورت برنامهنویسی آنلاین را ارائه میدهد. نه تنها قابلیتهای ایجاد یا تبدیل PDF را ارائه میدهد، بلکه شما میتوانید به راحتی عناصر فایل PDF مانند متن، تصویر، پیوستها، نشانکها و غیره را استخراج کنید. در این مقاله، ما بر روی استخراج متن از فایل PDF با استفاده از .NET Cloud SDK تمرکز کردهایم.
🔧 پیشنیازها
قبل از اینکه فرآیند ویرایش PDF را شروع کنیم، باید اطمینان حاصل کنیم که اجزای زیر نصب شدهاند:
- یک حساب GroupDocs Cloud - ثبتنام کنید تا Client ID and Secret خود را دریافت کنید.
- .NET 6.0 یا بالاتر نصب شده است.
- ویژوال استودیو یا هر IDE که از توسعه .NET پشتیبانی میکند.
نصب
SDK را مستقیماً از مدیر بسته NuGet نصب کنید:
Install-Package GroupDocs.Parser-Cloud
متن PDF را با استفاده از C# استخراج کنید
لطفاً مراحل زیر را برای به دست آوردن متن از فایل PDF به صورت برنامهنویسی دنبال کنید:
var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);
یک نمونه از ParseApi
را با ارسال شیء پیکربندی به عنوان آرگومان راهاندازی کنید.
var fileApi = new FileApi(configuration);
using (var fileStream = File.OpenRead("sample.pdf"))
{
var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
fileApi.UploadFile(uploadRequest);
}
فایل PDF ورودی را از درایو محلی خوانده و با فراخوانی متد UploadFile(...)
کلاس UploadFileRequest به حافظه ابری آپلود کنید.
// برای مثالهای بیشتر، لطفاً به https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet مراجعه کنید.
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" }
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
- TextOptions: مشخص میکند که کدام فایل باید متن استخراج شود.
- TextRequest: درخواست را به Cloud ارسال میکند.
- parseApi.Text(): متن استخراج شده را برمیگرداند.
متن را از محدوده صفحه با استفاده از C# استخراج کنید
اگر فقط به متن از صفحات خاصی نیاز دارید (برای مثال، صفحات ۲ تا ۴)، میتوانید محدوده صفحات را به این صورت مشخص کنید:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
StartPageNumber = 2,
CountPagesToExtract = 3
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);
متن را از اسناد پیوست استخراج کنید
برخی از PDFها حاوی پیوستهایی همچون Word، Excel یا PDF دیگر درون خود هستند. SDK به شما این امکان را میدهد که حتی از آن اسناد تعبیه شده نیز متن استخراج کنید:
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.pdf" },
ContainerItemInfo = new ContainerItemInfo
{
RelativePath = "attachment.docx",
StartPageNumber = 1,
CountPagesToExtract = 2
}
};
var request = new TextRequest(options);
var response = parseApi.Text(request);
Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);
آنلاین امتحان کنید
نمیخواهید هنوز کدنویسی کنید؟ از ابزار استخراج متن PDF آنلاین رایگان استفاده کنید. این ابزار با REST API کار میکند و به شما این امکان را میدهد که به سرعت متن را از هر مدرک PDF استخراج کنید.

نتیجه گیری
در این راهنما، شما یاد گرفتید که چگونه:
- متن را از فایلهای PDF با استفاده از C# .NET استخراج کنید.
- مدارک را در Cloud بارگذاری و تجزیه و تحلیل کنید.
- متن را با محدوده صفحه یا از فایل های پیوست شده دریافت کنید.
API ابری ما این امکان را برای توسعهدهندگان فراهم میکند که استخراج متن PDF را به راحتی خودکار کنند بدون اینکه با منطق پایینسطح تجزیه PDF مواجه شوند.