اگر شما تا به حال سعی کرده‌اید داده‌ها را به صورت دستی از یک PDF کپی کنید، می‌دانید که چقدر می‌تواند خسته کننده باشد—خصوصاً برای اسناد بزرگ یا چندگانه. با استفاده از SDK ابری .NET ما، می‌توانید این فرآیند را خودکار کنید و متن را به صورت برنامه‌نویسی از PDFها استخراج کنید و فقط با چند خط کد C# این کار را انجام دهید.

در این آموزش مبتدی‌پسند، شما یاد خواهید گرفت که چگونه متن را از اسناد PDF در C# .NET استخراج کنید، خواه بخواهید تمام متن را بخوانید، بر اساس محدوده صفحات خاص استخراج کنید، یا حتی متن را از فایل‌های جاسازی شده درون یک PDF تجزیه کنید.

API تجزیه PDF

GroupDocs.Parser Cloud SDK for .NET یک API شگفت‌انگیز است که قابلیت‌های دستکاری فایل‌های PDF به صورت برنامه‌نویسی آنلاین را ارائه می‌دهد. نه تنها قابلیت‌های ایجاد یا تبدیل PDF را ارائه می‌دهد، بلکه شما می‌توانید به راحتی عناصر فایل PDF مانند متن، تصویر، پیوست‌ها، نشانک‌ها و غیره را استخراج کنید. در این مقاله، ما بر روی استخراج متن از فایل PDF با استفاده از .NET Cloud SDK تمرکز کرده‌ایم.

🔧 پیش‌نیازها

قبل از اینکه فرآیند ویرایش PDF را شروع کنیم، باید اطمینان حاصل کنیم که اجزای زیر نصب شده‌اند:

  • یک حساب GroupDocs Cloud - ثبت‌نام کنید تا Client ID and Secret خود را دریافت کنید.
  • .NET 6.0 یا بالاتر نصب شده است.
  • ویژوال استودیو یا هر IDE که از توسعه .NET پشتیبانی می‌کند.

نصب

SDK را مستقیماً از مدیر بسته NuGet نصب کنید:

Install-Package GroupDocs.Parser-Cloud

متن PDF را با استفاده از C# استخراج کنید

لطفاً مراحل زیر را برای به دست آوردن متن از فایل PDF به صورت برنامه‌نویسی دنبال کنید:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

یک نمونه از ParseApi را با ارسال شیء پیکربندی به عنوان آرگومان راه‌اندازی کنید.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

فایل PDF ورودی را از درایو محلی خوانده و با فراخوانی متد UploadFile(...) کلاس UploadFileRequest به حافظه ابری آپلود کنید.

// برای مثال‌های بیشتر، لطفاً به  https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet  مراجعه کنید.

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • TextOptions: مشخص می‌کند که کدام فایل باید متن استخراج شود.
  • TextRequest: درخواست را به Cloud ارسال می‌کند.
  • parseApi.Text(): متن استخراج شده را برمی‌گرداند.

متن را از محدوده صفحه با استفاده از C# استخراج کنید

اگر فقط به متن از صفحات خاصی نیاز دارید (برای مثال، صفحات ۲ تا ۴)، می‌توانید محدوده صفحات را به این صورت مشخص کنید:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

متن را از اسناد پیوست استخراج کنید

برخی از PDFها حاوی پیوست‌هایی همچون Word، Excel یا PDF دیگر درون خود هستند. SDK به شما این امکان را می‌دهد که حتی از آن اسناد تعبیه شده نیز متن استخراج کنید:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

آنلاین امتحان کنید

نمی‌خواهید هنوز کدنویسی کنید؟ از ابزار استخراج متن PDF آنلاین رایگان استفاده کنید. این ابزار با REST API کار می‌کند و به شما این امکان را می‌دهد که به سرعت متن را از هر مدرک PDF استخراج کنید.

فایل‌های اکسل را به صورت آنلاین مقایسه کنید

نتیجه گیری

در این راهنما، شما یاد گرفتید که چگونه:

  • متن را از فایل‌های PDF با استفاده از C# .NET استخراج کنید.
  • مدارک را در Cloud بارگذاری و تجزیه و تحلیل کنید.
  • متن را با محدوده صفحه یا از فایل های پیوست شده دریافت کنید.

API ابری ما این امکان را برای توسعه‌دهندگان فراهم می‌کند که استخراج متن PDF را به راحتی خودکار کنند بدون اینکه با منطق پایین‌سطح تجزیه PDF مواجه شوند.

لینک‌های مفید

همچنین ببینید