
فتح النص من PDF الملفات أمر ضروري لفهرسة المحتوى، والأتمتة، وتحليل البيانات. مع مجموعة GroupDocs.Parser Cloud SDK لـ Node.js، يمكنك استخراج النص البسيط أو المنظم من ملفات PDF برمجياً من خلال واجهة برمجة التطبيقات RESTful بسيطة — دون الاعتماد على أدوات ثقيلة أو تحليل يدوي.
لماذا يجب استخراج النص من PDF؟
استخراج النص من ملفات PDFs أمر حيوي لـ:
- بناء أنظمة إدارة الوثائق أو خطوط أنابيب التعرف الضوئي على الأحرف.
- أتمتة جمع البيانات من العقود والفواتير والتقارير.
- تمكين البحث النصي الكامل للأرشيفات الرقمية.
- تنظيف وهيكلة المحتوى لنماذج الذكاء الاصطناعي / تعلم الآلة.
دعونا نتناول الموضوعات التالية بمزيد من التفاصيل:
- واجهة برمجة تطبيقات REST لاستخراج النص
- كيف تستخرج النص من PDF باستخدام Node.js
- استخراج النص من PDF عبر cURL
- استخراج النصوص عبر الإنترنت
واجهة برمجة التطبيقات (API) لاستخراج النصوص
مجموعة GroupDocs.Parser Cloud SDK for Node.js هي غلاف خفيف الوزن وعالي الأداء للتفاعل مع واجهة برمجة تطبيقات REST السحابية الخاصة بـ GroupDocs.Parser. تتيح للمطورين استخراج المحتوى الهيكلي أو غير الهيكلي، مثل:
- نص (المستند بأكمله، صفحات محددة، أو مناطق مختارة)
- صور
- البيانات الوصفية
- حقول الوثيقة
- البيانات المهيكلة من الجداول أو النماذج
يدعم العديد من الصيغ - بما في ذلك PDF، Word، Excel، PowerPoint، MSG، ZIP، والمزيد.
المتطلبات السابقة قم بتثبيت مجموعة GroupDocs.Parser Cloud SDK لـ Node.js:
npm install groupdocs-parser-cloud
قم بإنشاء حساب في GroupDocs.Cloud Dashboard للحصول على معرف العميل وسر العميل للتوثيق. لمزيد من المعلومات، يرجى زيارة هذه المقالة.
كيفية استخراج النص من PDF باستخدام Node.js
اتبع هذه الخطوات لاستخراج النص من ملف PDF باستخدام SDK الخاص بـ Node.js.
الخطوة 1: إعداد التكوين:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
الخطوة 2: تكوين ملف PDF الإدخال: قم بتهيئة كائن من فئة TextRequest ومرر مثيل فئة TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
خطوة 3: استخراج النص من PDF: استدعِ طريقة text ، وسوف تُرجع المحتوى النصي العادي لملف PDF الخاص بك.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// للمزيد من الأمثلة، يرجى زيارة [https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node](https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node)
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
يمكنك رؤية ناتج عينة الكود أعلاه في الصورة أدناه:

استخراج النص من PDF عبر cURL
إذا كنت تفضل استخدام عمليات سطر الأوامر أو تريد دمجها في نص؟ يمكنك استخراج النص باستخدام cURL مع GroupDocs.Parser REST API.
الخطوة 1 – إنشاء رمز الوصول:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
الخطوة 2 – استخراج الصور عبر واجهة برمجة التطبيقات REST:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- استبدل بالذي قمت بإنشائه.
فوائد استخدام cURL مع واجهة برمجة تطبيقات GroupDocs.Parser
- لا حاجة لـ SDK: استخدم REST مباشرةً للتكامل السريع.
- غير محدد بالنظام: يعمل مع أي نظام تشغيل أو لغة.
- مثالي لخطوط أنابيب CI/CD: أتمتة استخراج النص في بيئات DevOps.
- خفيف الوزن: لا توجد عمليات تثبيت أخرى تتجاوز cURL.
استخراج النصوص على الإنترنت
إذا كنت تبحث عن حل بدون كود، فاستخدم أداة PDF Text Extractor المجانية على الإنترنت المدعومة من قبل GroupDocs.Parser Cloud.

استنتاج
GroupDocs.Parser Cloud SDK for Node.js يجعل من السهل استخراج النص من ملفات PDF، سواء كنت بحاجة إلى تحليل المحتوى بالكامل، أو تعدين البيانات، أو أتمتة المستندات. مع الدعم لاستدعاءات RESTful وتكامل cURL، فإن هذه الواجهة البرمجية مثالية لبناء تطبيقات معالجة المستندات الحديثة والقابلة للتوسع في Node.js أو بيئات أخرى.
📚 مصادر إضافية
الأسئلة الشائعة – FAQs
كيف يمكنني استخراج الصور من Word؟
يمكنك استخدام GroupDocs.Parser Cloud SDKs لاستخراج النص من ملفات PDF برمجياً. يرجى زيارة هذا link لمزيد من التفاصيل.
ما هو نموذج التسعير؟
نحن نقدم نموذج تسعير يدفع عند الاستخدام. للمزيد من المعلومات، يرجى زيارة pricing guide.