شما به راحتی می توانید اسناد PDF خود را تجزیه کنید و تمام متن را به صورت برنامه نویسی در فضای ابری استخراج کنید. در این مقاله، نحوه استخراج متن از اسناد PDF با استفاده از REST API در Node.js را خواهید آموخت.
موضوعات زیر باید در این مقاله پوشش داده شود:
- PDF Parser REST API و Node.js SDK برای استخراج متن
- متن را از PDF با استفاده از REST API در Node.js استخراج کنید
- با استفاده از Node.js، متن بر اساس شماره صفحه را از اسناد PDF دریافت کنید
- متن را از اسناد پیوست شده با PDF با استفاده از Node.js استخراج کنید
PDF Parser REST API و Node.js SDK برای استخراج متن
برای تجزیه اسناد PDF، از Node.js SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این به شما امکان می دهد داده ها را از بیش از 50 نوع [فرمت های سند پشتیبانی شده] تجزیه کنید. همچنین از تجزیه کانتینرهایی مانند ZIP بایگانی، OST فایلهای داده ایمیل، کتابهای الکترونیکی، نشانهگذاریها و پورتفولیوهای PDF در برنامههای Node.js شما پشتیبانی میکند. با استفاده از SDK می توانید متن، تصاویر و داده ها را توسط یک الگو استخراج کنید. همچنین دات نت، جاوا، پی اچ پی، روبی، و SDKهای پایتون را به عنوان [اعضای خانواده تجزیه کننده سند7 برای Cloud API فراهم می کند.
میتوانید GroupDocs.Parser Cloud را در برنامه Node.js خود با استفاده از دستور زیر در کنسول نصب کنید:
npm install groupdocs-parser-cloud
لطفاً قبل از انجام مراحل ذکر شده [شناسه مشتری و راز خود را از داشبورد 8 دریافت کنید. هنگامی که شناسه و راز خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:
global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";
const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";
متن را از PDF با استفاده از REST API در Node.js استخراج کنید
با دنبال کردن مراحل ساده زیر می توانید متن را از اسناد PDF استخراج کنید:
- آپلود فایل PDF در Cloud
- استخراج متن از اسناد PDF با استفاده از Node.js
سند را آپلود کنید
ابتدا سند PDF را با استفاده از نمونه کد زیر در Cloud آپلود کنید:
// FileApi را بسازید
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';
fs.readFile(filePath, (err, fileStream) => {
// ایجاد درخواست آپلود فایل
let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
// آپلود فایل
fileApi.uploadFile(request);
});
در نتیجه، فایل PDF آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.
استخراج متن از اسناد PDF با استفاده از Node.js
با دنبال کردن مراحل زیر می توانید به راحتی تمام متن را از اسناد PDF به صورت برنامه ریزی شده استخراج کنید:
- یک نمونه از ParseApi ایجاد کنید.
- یک نمونه از FileInfo ایجاد کنید.
- سپس مسیر فایل PDF را تنظیم کنید.
- یک نمونه از TextOptions ایجاد کنید.
- سپس FileInfo را به TextOptions اختصاص دهید.
- اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید.
- در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.
نمونه کد زیر نحوه استخراج تمام متن از یک سند PDF را با استفاده از REST API در Node.js نشان می دهد.
// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);
// متن را استخراج کنید
let result = await parseApi.text(request);
console.log(result.text);
با استفاده از Node.js، متن بر اساس شماره صفحه را از اسناد PDF دریافت کنید
با دنبال کردن مراحل زیر می توانید متن را از صفحات خاصی از یک فایل PDF به صورت برنامه نویسی استخراج کنید:
- یک نمونه از ParseApi ایجاد کنید.
- یک نمونه از FileInfo ایجاد کنید.
- سپس مسیر فایل PDF را تنظیم کنید.
- یک نمونه از TextOptions ایجاد کنید.
- سپس FileInfo را به TextOptions اختصاص دهید.
- شماره صفحه شروع و تعداد کل صفحات را برای استخراج تنظیم کنید.
- اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید.
- در نهایت، با فراخوانی متد ParseApi.text() با TextRequest به نتیجه برسید.
نمونه کد زیر نحوه استخراج متن با شماره صفحه از یک سند PDF را با استفاده از REST API نشان می دهد.
// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// مسیر فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";
// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);
// متن را استخراج کنید
let result = await parseApi.text(request);
// نمایش نتایج
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
متن را از اسناد پیوست شده با PDF با استفاده از Node.js استخراج کنید
با دنبال کردن مراحل ذکر شده در زیر، میتوانید متن را از یک سند در یک ظرف، که به صورت پیوست در یک فایل PDF در دسترس است، به صورت برنامهنویسی استخراج کنید.
- یک نمونه از ParseApi ایجاد کنید.
- یک نمونه از FileInfo ایجاد کنید.
- سپس مسیر فایل PDF را تنظیم کنید.
- در صورت تمایل، رمز عبور فایل را وارد کنید.
- اکنون یک نمونه از ContainerItemInfo ایجاد کنید
- سپس مسیر نسبی فایل پیوست را تعیین کنید
- یک نمونه از TextOptions ایجاد کنید.
- سپس FileInfo و ContainerItemInfo را به TextOptions اختصاص دهید.
- اکنون، یک نمونه از TextRequest با TextOptions ایجاد کنید
- در نهایت، با فراخوانی متد ParseApi.text() با TextRequest نتیجه بگیرید.
نمونه کد زیر نحوه استخراج متن از یک سند داخل یک سند PDF را با استفاده از REST API نشان می دهد.
// مقداردهی اولیه Api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);
// فایل ورودی
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";
// مورد ظرف ورودی
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";
// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;
// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);
// متن را استخراج کنید
let result = await parseApi.text(request);
console.log(result.text);
آنلاین را امتحان کنید
لطفاً ابزار تجزیه و تحلیل PDF آنلاین رایگان زیر را که با استفاده از API بالا ایجاد شده است، امتحان کنید. https://products.groupdocs.app/parser/pdf
نتیجه
در این مقاله، نحوه تجزیه اسناد PDF را در فضای ابری یاد گرفتید. علاوه بر این، نحوه استخراج متن بر اساس شماره صفحات و از آیتم های کانتینر فایل های PDF را با استفاده از REST API در Node.js مشاهده کرده اید. این مقاله همچنین نحوه آپلود برنامه ای یک فایل PDF را در فضای ابری توضیح داد. علاوه بر این، میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه میکنیم که به شما امکان میدهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آنها تعامل داشته باشید. در صورت وجود هرگونه ابهام، لطفاً با ما در تالار گفتمان تماس بگیرید.