إذا كنت قد جربت يومًا نسخ البيانات يدويًا من PDF، فستعلم مدى صعوبة ذلك - خاصة بالنسبة للمستندات الكبيرة أو المتعددة. مع SDK السحابي .NET الخاص بنا، يمكنك أتمتة هذه العملية واستخراج النصوص من ملفات PDF برمجيًا باستخدام بضع سطور فقط من كود C#.

في هذا الدليل المناسب للمبتدئين، ستتعلم كيفية استخراج النص من مستندات PDF باستخدام C# .NET، سواء كنت ترغب في قراءة كل النص، أو استخراج نص من نطاقات صفحات محددة، أو حتى تحليل النص من الملفات المضمنة داخل ملف PDF.

PDF Parser API

GroupDocs.Parser Cloud SDK for .NET هو API رائع يقدم الإمكانيات للتلاعب بملفات PDF برمجياً عبر الإنترنت. لا يقتصر الأمر على تقديم إمكانيات إنشاء أو تحويل PDF، بل يمكنك بسهولة استخراج عناصر ملف PDF مثل النص، الصورة، المرفقات، الإشارات المرجعية، إلخ. في هذه المقالة، نركز على استخراج النص من ملف PDF باستخدام .NET Cloud SDK.

🔧 المتطلبات الأساسية

قبل أن نبدأ في عملية معالجة PDF، نحتاج إلى التأكد من أن المكونات التالية مثبتة:

  • حساب GroupDocs Cloud - سجّل للحصول على Client ID and Secret.
  • .نت 6.0 أو أعلى مثبت.
  • فيجوال ستوديو أو أي IDE يدعم تطوير .NET.

تركيب

قم بتثبيت SDK مباشرة من مدير حزم NuGet:

Install-Package GroupDocs.Parser-Cloud

استخراج نص PDF باستخدام C#

يرجى اتباع الخطوات الموضحة أدناه للحصول على نص من ملف PDF برمجياً:

var configuration = new Configuration("YourClientId", "YourClientSecret");
var parseApi = new ParseApi(configuration);

تهيئة مثيل من ParseApi عن طريق تمرير كائن التكوين كحجة.

var fileApi = new FileApi(configuration);

using (var fileStream = File.OpenRead("sample.pdf"))
{
    var uploadRequest = new UploadFileRequest("sample.pdf", fileStream);
    fileApi.UploadFile(uploadRequest);
}

قم بقراءة ملف PDF من محرك الأقراص المحلي وقم بتحميله إلى التخزين السحابي عن طريق استدعاء دالة UploadFile(...) من فئة UploadFileRequest.

// للحصول على مزيد من الأمثلة، يرجى زيارة [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet](https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet)

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
  • Options النص: يحدد الملف الذي سيتم استخراج النص منه.
  • TextRequest: يرسل الطلب إلى السحابة.
  • parseApi.Text(): يُرجِع محتوى النص المستخرج.

استخراج النص من نطاق الصفحات باستخدام C#

إذا كنت بحاجة فقط إلى نص من صفحات معينة (على سبيل المثال، الصفحات 2 إلى 4)، يمكنك تحديد نطاق الصفحات كما يلي:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    StartPageNumber = 2,
    CountPagesToExtract = 3
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Text extracted from pages 2 to 4:");
Console.WriteLine(response.Text);

استخراج النص من الوثائق المرفقة

تحتوي بعض ملفات PDF على مرفقات مثل Word أو Excel أو PDF آخر بداخلها. يتيح لك SDK استخراج النص حتى من تلك الوثائق المدمجة:

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "sample.pdf" },
    ContainerItemInfo = new ContainerItemInfo
    {
        RelativePath = "attachment.docx",
        StartPageNumber = 1,
        CountPagesToExtract = 2
    }
};

var request = new TextRequest(options);
var response = parseApi.Text(request);

Console.WriteLine("Extracted text from the attached document:");
Console.WriteLine(response.Text);

جرب عبر الإنترنت

لا تريد البرمجة بعد؟ جرب استخراج نص PDF عبر الإنترنت المجاني. إنه مدعوم بواسطة واجهة برمجة التطبيقات REST، مما يتيح لك استخراج النص من أي مستند PDF على الفور.

قارن ملفات إكسل عبر الإنترنت

استنتاج

في هذا الدليل، تعلمت كيف:

  • استخراج النص من ملفات PDF باستخدام C# .NET.
  • رفع وتحليل المستندات على السحاب.
  • استرجاع النص بواسطة نطاق الصفحات أو من الملفات المرفقة.

تجعل واجهة برمجة التطبيقات السحابية الخاصة بنا من السهل على المطورين أتمتة استخراج نص PDF دون التعامل مع منطق تحليل PDF المنخفض المستوى.

روابط مفيدة

انظر أيضًا