استخراج النص من PDF باستخدام REST API في Node.js

يمكنك بسهولة تحليل مستندات PDF الخاصة بك واستخراج كل النص برمجيًا على السحابة. في هذه المقالة ، ستتعلم كيفية استخراج النص من مستندات PDF باستخدام واجهة برمجة تطبيقات REST في Node.js.

سيتم تناول الموضوعات التالية في هذه المقالة:

PDF Parser REST API و Node.js SDK لاستخراج النص

لتحليل مستندات PDF ، سأستخدم Node.js SDK الخاص بـ GroupDocs.Parser Cloud API. يسمح لك بتحليل البيانات من أكثر من 50 نوعًا من تنسيقات المستندات المدعومة. كما أنه يدعم تحليل الحاويات مثل ZIP المحفوظات ، OST ملفات بيانات البريد ، الكتب الإلكترونية ، العلامات ، وحافظات PDF في تطبيقات Node.js الخاصة بك. يمكنك استخراج النص والصور وتحليل البيانات بواسطة قالب باستخدام SDK. كما أنها توفر أدوات تطوير البرامج (SDK).NET و Java و PHP و Ruby و Python باعتبارها أعضاء عائلة محلل المستندات لواجهة برمجة التطبيقات السحابية.

يمكنك تثبيت GroupDocs.Parser Cloud على تطبيق Node.js الخاص بك باستخدام الأمر التالي في وحدة التحكم:

npm install groupdocs-parser-cloud

يرجى الحصول على معرف العميل والسرية من لوحة القيادة قبل اتباع الخطوات المذكورة. بمجرد حصولك على المعرف والسر الخاص بك ، قم بإضافة الرمز كما هو موضح أدناه:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

استخراج النص من PDF باستخدام واجهة برمجة تطبيقات REST في Node.js

يمكنك استخراج نص من مستندات PDF باتباع الخطوات البسيطة المذكورة أدناه:

قم بتحميل المستند

أولاً ، قم بتحميل مستند PDF إلى السحابة باستخدام مثال الرمز الوارد أدناه:

// بناء FileApi
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // إنشاء طلب تحميل ملف
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // رفع ملف
  fileApi.uploadFile(request);
});

نتيجة لذلك ، سيكون ملف PDF الذي تم تحميله متاحًا في قسم الملفات من لوحة التحكم على السحابة.

استخراج نص من مستندات PDF باستخدام Node.js

يمكنك بسهولة استخراج كل النص من مستندات PDF برمجيًا باتباع الخطوات الواردة أدناه:

  • إنشاء مثيل من ParseApi.
  • قم بإنشاء مثيل FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف PDF.
  • قم بإنشاء مثيل لـ TextOptions.
  • ثم قم بتعيين FileInfo إلى TextOptions.
  • الآن ، قم بإنشاء مثيل لـ TextRequest باستخدام TextOptions.
  • أخيرًا ، احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text() باستخدام TextRequest.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج كل النص من مستند PDF باستخدام واجهة برمجة تطبيقات REST في Node.js.

// تهيئة API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ملف الإدخال
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// تحديد خيارات النص
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// إنشاء طلب نصي
let request = new groupdocs_parser_cloud.TextRequest(options);

// استخراج النص
let result = await parseApi.text(request);
console.log(result.text);
استخراج النص من PDF باستخدام واجهة برمجة تطبيقات REST في Node.js

استخراج النص من PDF باستخدام واجهة برمجة تطبيقات REST في Node.js

احصل على نص حسب أرقام الصفحات من مستندات PDF باستخدام Node.js

يمكنك استخراج النص من صفحات معينة من ملف PDF برمجيًا باتباع الخطوات الواردة أدناه:

  • إنشاء مثيل من ParseApi.
  • قم بإنشاء مثيل FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف PDF.
  • قم بإنشاء مثيل لـ TextOptions.
  • ثم قم بتعيين FileInfo إلى TextOptions.
  • قم بتعيين رقم صفحة البداية والعدد الإجمالي للصفحات المراد استخراجها.
  • الآن ، قم بإنشاء مثيل لـ TextRequest باستخدام TextOptions.
  • أخيرًا ، احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text() باستخدام TextRequest.

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج النص حسب أرقام الصفحات من مستند PDF باستخدام واجهة برمجة تطبيقات REST.

// تهيئة API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// مسار ملف الإدخال
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// تحديد خيارات النص
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// إنشاء طلب نصي
let request = new groupdocs_parser_cloud.TextRequest(options);

// استخراج النص
let result = await parseApi.text(request);

// أظهر النتائج
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
احصل على نص حسب أرقام الصفحات من مستندات PDF باستخدام Node.js

احصل على نص حسب أرقام الصفحات من مستندات PDF باستخدام Node.js

استخراج نص من المستندات المرفقة مع PDF باستخدام Node.js

يمكنك استخراج النص من مستند داخل حاوية ، متاح كمرفق في ملف PDF برمجيًا ، باتباع الخطوات المذكورة أدناه.

  • إنشاء مثيل من ParseApi.
  • قم بإنشاء مثيل FileInfo.
  • بعد ذلك ، قم بتعيين المسار إلى ملف PDF.
  • اختياريًا ، قم بتوفير كلمة مرور الملف.
  • الآن ، قم بإنشاء مثيل لـ ContainerItemInfo
  • ثم قم بتعيين المسار النسبي للملف المرفق
  • قم بإنشاء مثيل لـ TextOptions.
  • ثم قم بتعيين FileInfo و ContainerItemInfo إلى TextOptions.
  • الآن ، قم بإنشاء مثيل لـ TextRequest باستخدام TextOptions
  • أخيرًا ، احصل على النتائج عن طريق استدعاء الأسلوب ParseApi.text() باستخدام TextRequest

يوضح نموذج التعليمات البرمجية التالي كيفية استخراج النص من مستند داخل مستند PDF باستخدام REST API.

// تهيئة API
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// ملف الإدخال
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// عنصر حاوية الإدخال
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// تحديد خيارات النص
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// إنشاء طلب نصي
let request = new groupdocs_parser_cloud.TextRequest(options);

// استخراج النص
let result = await parseApi.text(request);
console.log(result.text);
استخراج نص من المستندات المرفقة مع PDF باستخدام Node.js

استخراج نص من المستندات المرفقة مع PDF باستخدام Node.js

جرب عبر الإنترنت

يرجى تجربة أداة تحليل PDF المجانية التالية عبر الإنترنت ، والتي تم تطويرها باستخدام واجهة برمجة التطبيقات المذكورة أعلاه. https://products.groupdocs.app/parser/pdf

خاتمة

في هذه المقالة ، تعلمت كيفية تحليل مستندات PDF على السحابة. علاوة على ذلك ، لقد رأيت كيفية استخراج النص حسب أرقام الصفحات ومن عناصر حاوية ملفات PDF باستخدام واجهة برمجة تطبيقات REST في Node.js. توضح هذه المقالة أيضًا كيفية تحميل ملف PDF برمجيًا إلى السحابة. بالإضافة إلى ذلك ، يمكنك معرفة المزيد حول GroupDocs.Parser Cloud API باستخدام التوثيق. نوفر أيضًا قسم مرجع واجهة برمجة التطبيقات الذي يتيح لك تصور واجهات برمجة التطبيقات الخاصة بنا والتفاعل معها مباشرةً من خلال المتصفح. في حالة وجود أي غموض ، فلا تتردد في الاتصال بنا على المنتدى.

أنظر أيضا