استخراج متن از PDF با استفاده از REST API در Node.js

شما به راحتی می توانید اسناد PDF خود را تجزیه کنید و تمام متن را به صورت برنامه نویسی در فضای ابری استخراج کنید. در این مقاله، نحوه استخراج متن از اسناد PDF با استفاده از REST API در Node.js را خواهید آموخت.

موضوعات زیر باید در این مقاله پوشش داده شود:

PDF Parser REST API و Node.js SDK برای استخراج متن

برای تجزیه اسناد PDF، از Node.js SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این به شما امکان می دهد داده ها را از بیش از 50 نوع [فرمت های سند پشتیبانی شده] تجزیه کنید. همچنین از تجزیه کانتینرهایی مانند ZIP بایگانی، OST فایل‌های داده ایمیل، کتاب‌های الکترونیکی، نشانه‌گذاری‌ها و پورتفولیوهای PDF در برنامه‌های Node.js شما پشتیبانی می‌کند. با استفاده از SDK می توانید متن، تصاویر و داده ها را توسط یک الگو استخراج کنید. همچنین دات نت، جاوا، پی اچ پی، روبی، و SDKهای پایتون را به عنوان [اعضای خانواده تجزیه کننده سند7 برای Cloud API فراهم می کند.

می‌توانید GroupDocs.Parser Cloud را در برنامه Node.js خود با استفاده از دستور زیر در کنسول نصب کنید:

npm install groupdocs-parser-cloud

لطفاً قبل از انجام مراحل ذکر شده [شناسه مشتری و راز خود را از داشبورد 8 دریافت کنید. هنگامی که شناسه و راز خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

متن را از PDF با استفاده از REST API در Node.js استخراج کنید

با دنبال کردن مراحل ساده زیر می توانید متن را از اسناد PDF استخراج کنید:

سند را آپلود کنید

ابتدا سند PDF را با استفاده از نمونه کد زیر در Cloud آپلود کنید:

// FileApi را بسازید
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // ایجاد درخواست آپلود فایل
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // آپلود فایل
  fileApi.uploadFile(request);
});

در نتیجه، فایل PDF آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.

استخراج متن از اسناد PDF با استفاده از Node.js

با دنبال کردن مراحل زیر می توانید به راحتی تمام متن را از اسناد PDF به صورت برنامه ریزی شده استخراج کنید:

  • یک نمونه از ParseApi ایجاد کنید.
  • یک نمونه از FileInfo ایجاد کنید.
  • سپس مسیر فایل PDF را تنظیم کنید.
  • یک نمونه از TextOptions ایجاد کنید.
  • سپس FileInfo را به TextOptions اختصاص دهید.
  • اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید.
  • در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.

نمونه کد زیر نحوه استخراج تمام متن از یک سند PDF را با استفاده از REST API در Node.js نشان می دهد.

// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);

// متن را استخراج کنید
let result = await parseApi.text(request);
console.log(result.text);
متن را از PDF با استفاده از REST API در Node.js استخراج کنید

متن را از PDF با استفاده از REST API در Node.js استخراج کنید

با استفاده از Node.js، متن بر اساس شماره صفحه را از اسناد PDF دریافت کنید

با دنبال کردن مراحل زیر می توانید متن را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید:

  • یک نمونه از ParseApi ایجاد کنید.
  • یک نمونه از FileInfo ایجاد کنید.
  • سپس مسیر فایل PDF را تنظیم کنید.
  • یک نمونه از TextOptions ایجاد کنید.
  • سپس FileInfo را به TextOptions اختصاص دهید.
  • شماره صفحه شروع و تعداد کل صفحات را برای استخراج تنظیم کنید.
  • اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید.
  • در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.

نمونه کد زیر نحوه استخراج متن با شماره صفحه از یک سند PDF را با استفاده از REST API نشان می دهد.

// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// مسیر فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);

// متن را استخراج کنید
let result = await parseApi.text(request);

// نمایش نتایج
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
با استفاده از Node.js، متن بر اساس شماره صفحه را از اسناد PDF دریافت کنید

با استفاده از Node.js، متن بر اساس شماره صفحه را از اسناد PDF دریافت کنید

متن را از اسناد پیوست شده با PDF با استفاده از Node.js استخراج کنید

با دنبال کردن مراحل ذکر شده در زیر، می‌توانید متن را از یک سند در یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامه‌نویسی استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید.
  • یک نمونه از FileInfo ایجاد کنید.
  • سپس مسیر فایل PDF را تنظیم کنید.
  • در صورت تمایل، رمز عبور فایل را وارد کنید.
  • اکنون یک نمونه از ContainerItemInfo ایجاد کنید
  • سپس مسیر نسبی فایل پیوست را تعیین کنید
  • یک نمونه از TextOptions ایجاد کنید.
  • سپس FileInfo و ContainerItemInfo را به TextOptions اختصاص دهید.
  • اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید
  • در نهایت، با فراخوانی متد ParseApi.text() با TextRequest نتیجه بگیرید.

نمونه کد زیر نحوه استخراج متن از یک سند داخل یک سند PDF را با استفاده از REST API نشان می دهد.

// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// مورد ظرف ورودی
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);

// متن را استخراج کنید
let result = await parseApi.text(request);
console.log(result.text);
متن را از اسناد پیوست شده با PDF با استفاده از Node.js استخراج کنید

متن را از اسناد پیوست شده با PDF با استفاده از Node.js استخراج کنید

آنلاین را امتحان کنید

لطفاً ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را که با استفاده از API بالا ایجاد شده است، امتحان کنید. https://products.groupdocs.app/parser/pdf

نتیجه

در این مقاله، نحوه تجزیه اسناد PDF را در فضای ابری یاد گرفتید. علاوه بر این، نحوه استخراج متن بر اساس شماره صفحات و از آیتم های کانتینر فایل های PDF را با استفاده از REST API در Node.js مشاهده کرده اید. این مقاله همچنین نحوه آپلود برنامه ای یک فایل PDF را در فضای ابری توضیح داد. علاوه بر این، می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه می‌کنیم که به شما امکان می‌دهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آن‌ها تعامل داشته باشید. در صورت وجود هرگونه ابهام، لطفاً با ما در تالار گفتمان تماس بگیرید.

همچنین ببینید