متن را از PDF با استفاده از Node.js استخراج کنید - استخراج‌کننده متن

باز کردن متن از PDF فایل ها برای نمایه سازی محتوا، اتوماسیون و تجزیه و تحلیل داده ها ضروری است. با استفاده از GroupDocs.Parser Cloud SDK برای Node.js، می توانید به صورت برنامه نویسی متن ساده یا ساختار یافته را از PDFs از طریق یک API RESTful ساده استخراج کنید — بدون وابستگی به ابزارهای حجیم یا تجزیه و تحلیل دستی.

چرا باید متن را از PDF استخراج کرد؟

استخراج متن از PDF ها برای موارد زیر ضروری است:

  • ساخت مستندات مدیریت یا خطوط لوله OCR.
  • اتوماسیون جمع آوری داده ها از قراردادها، فاکتورها و گزارشات.
  • فعال‌سازی جستجوی متن کامل برای آرشیوهای دیجیتال.
  • ایجاد و ساختاردهی محتوا برای مدل‌های AI/ML.

بیایید موضوعات زیر را به تفصیل بررسی کنیم:

API REST استخراج متن

SDK GroupDocs.Parser Cloud برای Node.js یک پوشش سبک و با کارایی بالا برای تعامل با API REST گروهDocs.Parser Cloud است. این امکان را برای توسعه‌دهندگان فراهم می‌کند تا محتوای ساختار یافته یا غیر ساختار یافته، مانند:

  • متن (کل سند، صفحات خاص یا مناطق انتخاب شده)
  • تصاویر
  • متادیتا
  • فیلدهای سند
  • داده‌های ساختار یافته از جداول یا فرم‌ها

این امکان را دارد که از فرمت‌های متنوعی پشتیبانی کند — از جمله PDF، Word، Excel، PowerPoint، MSG، ZIP و بیشتر.

Prerequisites نصب گروه Docs.Parser Cloud SDK برای Node.js:

npm install groupdocs-parser-cloud

برای ایجاد حساب کاربری در GroupDocs.Cloud Dashboard، شناسه کلاینت و کلید مخفی کلاینت خود را برای احراز هویت دریافت کنید. برای اطلاعات بیشتر، لطفاً به این مقاله مراجعه کنید.

چگونه متن را از PDF با استفاده از Node.js استخراج کنیم

مراحل زیر را برای استخراج متن از یک PDF با استفاده از SDK Node.js دنبال کنید.

مرحله ۱: راه‌اندازی پیکربندی:

const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

مرحله ۲: پیکربندی ورودی فایل PDF: شیئی از کلاس TextRequest را ایجاد کنید و نمونه ای از کلاس TextOptions را منتقل کنید.

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

مرحله ۳: استخراج متن از PDF: متد text را فراخوانی کنید، و محتوای متن ساده PDF شما را باز خواهد گرداند.

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});
// برای مثال های بیشتر، لطفاً به  https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node  مراجعه کنید.
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");

const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);

const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";

const options = new TextOptions();
options.fileInfo = fileInfo;

const request = new TextRequest(options);

parserApi.text(request).then(response => {
    console.log("Extracted text content:");
    console.log(response.text);
}).catch(err => {
    console.error("Error extracting text:", err);
});

شما می‌توانید خروجی نمونه کد بالا را در تصویر زیر مشاهده کنید:

ابزار استخراج متن از پی‌دی‌اف

متن را از PDF با استفاده از cURL استخراج کنید

اگر شما عملیات خط فرمان را ترجیح می‌دهید یا می‌خواهید آن را به یک اسکریپت ادغام کنید؟ می‌توانید با استفاده از cURL و API REST GroupDocs.Parser متن را استخراج کنید.

مرحله ۱ – تولید توکن دسترسی:

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

مرحله ۲ – استخراج تصاویر از طریق REST API:

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d 
    "{  
        \"FileInfo\": 
        {
            \"FilePath\": \"Binder1.pdf\",
            \"StorageName\": \"internal\"
        },
        \"StartPageNumber\": 0,
        \"CountPagesToExtract\": 1
    }"
  • Replace با آنچه که شما تولید کرده‌اید.

مزایای استفاده از cURL با API GroupDocs.Parser

  • نیاز به SDK نیست: برای ادغام سریع از REST به صورت مستقیم استفاده کنید.
  • نازل از پلتفرم: با هر سیستم‌عامل یا زبانی کار می‌کند.
  • ایده آل برای خطوط لوله CI/CD: استخراج خودکار متن در محیط های DevOps.
  • سبک وزن: هیچ نصب اضافی فراتر از cURL.

استخراج کننده متن آنلاین

اگر به دنبال یک راه‌حل بدون کد هستید، پس از PDF Text Extractor رایگان آنلاین ما که توسط GroupDocs.Parser Cloud پشتیبانی می‌شود، استفاده کنید.

استخراج کننده تصویر آنلاین

نتیجه گیری

GroupDocs.Parser Cloud SDK برای Node.js استخراج متن از PDF ها را آسان می‌کند، چه به تجزیه و تحلیل کامل محتوا، استخراج داده، یا اتوماسیون سند نیاز داشته باشید. با پشتیبانی از تماس‌های RESTful و ادغام cURL، این API برای ساخت برنامه‌های پردازش سند مدرن و مقیاس‌پذیر در Node.js یا سایر محیط‌ها ایده‌آل است.

📚 منابع اضافی

سوالات متداول – FAQs

چطور می‌توانم تصاویر را از ورد استخراج کنم؟

شما می‌توانید از GroupDocs.Parser Cloud SDKs برای استخراج متن از فایل‌های PDF به‌صورت برنامه‌نویسی استفاده کنید. لطفاً برای جزئیات بیشتر به این link مراجعه کنید.

مدل قیمت گذاری چیست؟

ما یک مدل قیمت گذاری پرداخت به ازای استفاده ارائه می دهیم. برای اطلاعات بیشتر، لطفاً به pricing guide مراجعه کنید.

مقالات پیشنهادی