
باز کردن متن از PDF فایل ها برای نمایه سازی محتوا، اتوماسیون و تجزیه و تحلیل داده ها ضروری است. با استفاده از GroupDocs.Parser Cloud SDK برای Node.js، می توانید به صورت برنامه نویسی متن ساده یا ساختار یافته را از PDFs از طریق یک API RESTful ساده استخراج کنید — بدون وابستگی به ابزارهای حجیم یا تجزیه و تحلیل دستی.
چرا باید متن را از PDF استخراج کرد؟
استخراج متن از PDF ها برای موارد زیر ضروری است:
- ساخت مستندات مدیریت یا خطوط لوله OCR.
- اتوماسیون جمع آوری داده ها از قراردادها، فاکتورها و گزارشات.
- فعالسازی جستجوی متن کامل برای آرشیوهای دیجیتال.
- ایجاد و ساختاردهی محتوا برای مدلهای AI/ML.
بیایید موضوعات زیر را به تفصیل بررسی کنیم:
- API REST استخراج متن
- چگونه متن را از PDF با استفاده از Node.js استخراج کنیم
- متن را از PDF از طریق cURL استخراج کنید
- استخراج کننده متن آنلاین
API REST استخراج متن
SDK GroupDocs.Parser Cloud برای Node.js یک پوشش سبک و با کارایی بالا برای تعامل با API REST گروهDocs.Parser Cloud است. این امکان را برای توسعهدهندگان فراهم میکند تا محتوای ساختار یافته یا غیر ساختار یافته، مانند:
- متن (کل سند، صفحات خاص یا مناطق انتخاب شده)
- تصاویر
- متادیتا
- فیلدهای سند
- دادههای ساختار یافته از جداول یا فرمها
این امکان را دارد که از فرمتهای متنوعی پشتیبانی کند — از جمله PDF، Word، Excel، PowerPoint، MSG، ZIP و بیشتر.
Prerequisites نصب گروه Docs.Parser Cloud SDK برای Node.js:
npm install groupdocs-parser-cloud
برای ایجاد حساب کاربری در GroupDocs.Cloud Dashboard، شناسه کلاینت و کلید مخفی کلاینت خود را برای احراز هویت دریافت کنید. برای اطلاعات بیشتر، لطفاً به این مقاله مراجعه کنید.
چگونه متن را از PDF با استفاده از Node.js استخراج کنیم
مراحل زیر را برای استخراج متن از یک PDF با استفاده از SDK Node.js دنبال کنید.
مرحله ۱: راهاندازی پیکربندی:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
مرحله ۲: پیکربندی ورودی فایل PDF: شیئی از کلاس TextRequest را ایجاد کنید و نمونه ای از کلاس TextOptions را منتقل کنید.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
مرحله ۳: استخراج متن از PDF: متد text را فراخوانی کنید، و محتوای متن ساده PDF شما را باز خواهد گرداند.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// برای مثال های بیشتر، لطفاً به https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node مراجعه کنید.
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
شما میتوانید خروجی نمونه کد بالا را در تصویر زیر مشاهده کنید:

متن را از PDF با استفاده از cURL استخراج کنید
اگر شما عملیات خط فرمان را ترجیح میدهید یا میخواهید آن را به یک اسکریپت ادغام کنید؟ میتوانید با استفاده از cURL و API REST GroupDocs.Parser متن را استخراج کنید.
مرحله ۱ – تولید توکن دسترسی:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
مرحله ۲ – استخراج تصاویر از طریق REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Replace با آنچه که شما تولید کردهاید.
مزایای استفاده از cURL با API GroupDocs.Parser
- نیاز به SDK نیست: برای ادغام سریع از REST به صورت مستقیم استفاده کنید.
- نازل از پلتفرم: با هر سیستمعامل یا زبانی کار میکند.
- ایده آل برای خطوط لوله CI/CD: استخراج خودکار متن در محیط های DevOps.
- سبک وزن: هیچ نصب اضافی فراتر از cURL.
استخراج کننده متن آنلاین
اگر به دنبال یک راهحل بدون کد هستید، پس از PDF Text Extractor رایگان آنلاین ما که توسط GroupDocs.Parser Cloud پشتیبانی میشود، استفاده کنید.

نتیجه گیری
GroupDocs.Parser Cloud SDK برای Node.js استخراج متن از PDF ها را آسان میکند، چه به تجزیه و تحلیل کامل محتوا، استخراج داده، یا اتوماسیون سند نیاز داشته باشید. با پشتیبانی از تماسهای RESTful و ادغام cURL، این API برای ساخت برنامههای پردازش سند مدرن و مقیاسپذیر در Node.js یا سایر محیطها ایدهآل است.
📚 منابع اضافی
سوالات متداول – FAQs
چطور میتوانم تصاویر را از ورد استخراج کنم؟
شما میتوانید از GroupDocs.Parser Cloud SDKs برای استخراج متن از فایلهای PDF بهصورت برنامهنویسی استفاده کنید. لطفاً برای جزئیات بیشتر به این link مراجعه کنید.
مدل قیمت گذاری چیست؟
ما یک مدل قیمت گذاری پرداخت به ازای استفاده ارائه می دهیم. برای اطلاعات بیشتر، لطفاً به pricing guide مراجعه کنید.