اسناد Word را با استفاده از REST API در Node.js تجزیه کنید

ممکن است برای اهداف مختلف نیاز به استخراج متن یا تصاویر از اسناد Word خود داشته باشید. شما به راحتی می توانید اسناد Word را تجزیه کنید و متن را به صورت برنامه نویسی در برنامه های Node.js خود بخوانید. به عنوان یک توسعه دهنده Node.js، می توانید تمام متن ها و تصاویر را از فایل های DOCX به صورت برنامه نویسی در فضای ابری استخراج کنید. این مقاله بر نحوه تجزیه اسناد Word با استفاده از REST API در Node.js تمرکز خواهد کرد.

موضوعات زیر در این مقاله پوشش داده خواهد شد:

Document Parser REST API و Node.js SDK

برای تجزیه اسناد DOCX، از Node.js SDK of GroupDocs.Parser Cloud API استفاده خواهم کرد. این امکان را به شما می دهد تا داده ها را از بیش از 50 نوع سند تجزیه کنید. همچنین از تجزیه کانتینرهایی مانند بایگانی ZIP، فایل‌های داده پست الکترونیکی OST/PST، کتاب‌های الکترونیکی، نشانه‌گذاری‌ها و پورتفولیوهای PDF در برنامه‌های Node.js شما پشتیبانی می‌کند. با استفاده از SDK می توانید متن، تصاویر و داده ها را توسط یک الگو استخراج کنید. همچنین دات نت، جاوا، پی اچ پی، روبی، و SDK های پایتون را به عنوان [اعضای خانواده تجزیه کننده سند3 برای Cloud API فراهم می کند.

می‌توانید GroupDocs.Parser Cloud را در برنامه Node.js خود با استفاده از دستور زیر در کنسول نصب کنید:

npm install groupdocs-parser-cloud 

لطفاً قبل از انجام مراحل ذکر شده، شناسه مشتری و راز خود را از داشبورد دریافت کنید. هنگامی که شناسه و راز خود را دریافت کردید، کد را مطابق شکل زیر اضافه کنید:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

اسناد Word را تجزیه کنید و تصاویر را با استفاده از REST API در Node.js استخراج کنید

با دنبال کردن مراحل ذکر شده در زیر می توانید اسناد Word خود را تجزیه و تصاویر را به صورت برنامه نویسی استخراج کنید:

سند را آپلود کنید

ابتدا سند Word (DOCX) را با استفاده از مثال کد زیر در Cloud آپلود کنید:

// مقداردهی اولیه API
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let resourcesFolder = 'C:\\Files\\sample.docx';

// خواندن فایل
fs.readFile(resourcesFolder, (err, fileStream) => {
  // ایجاد درخواست آپلود فایل
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.docx", fileStream, myStorage);
  // آپلود فایل
  fileApi.uploadFile(request);
});

در نتیجه، فایل DOCX آپلود شده در بخش فایل‌ها داشبورد شما در فضای ابری در دسترس خواهد بود.

استخراج تصاویر از اسناد Word با استفاده از Node.js

با انجام مراحل ذکر شده در زیر می توانید به راحتی تمامی تصاویر را از اسناد Word استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • یک نمونه از FileInfo ایجاد کنید
  • مسیر را برای فایل DOCX تنظیم کنید
  • یک نمونه از ImageOptions ایجاد کنید
  • FileInfo را به ImageOptions اختصاص دهید
  • ImagesRequest ایجاد کنید
  • با فراخوانی روش ParseApi.images() به نتیجه برسید

نمونه کد زیر نحوه استخراج تصاویر از فایل DOCX با استفاده از REST API را نشان می دهد.

// مقداردهی اولیه api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// اطلاعات فایل نمونه
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// گزینه های تصویر را تعریف کنید
let options = new groupdocs_parser_cloud.ImagesOptions();
options.fileInfo = fileInfo;

// ایجاد درخواست تصویر
let request = new groupdocs_parser_cloud.ImagesRequest(options);

// دریافت تصاویر
let result = await parseApi.images(request);

// نمایش مسیر دانلود تصاویر
let images = result.images;
images.forEach(image => {
  console.log("Image path in storage: " + image.path);
  console.log("Download url: " + image.downloadUrl);
  console.log("Image format: " + image.fileFormat + ". Page index: " + image.pageIndex);
});
استخراج تصاویر از اسناد Word با استفاده از Node.js

استخراج تصاویر از اسناد Word با استفاده از Node.js

دانلود تصاویر استخراج شده

نمونه کد بالا تصاویر استخراج شده را در فضای ابری ذخیره می کند. با استفاده از نمونه کد زیر می توانید این تصاویر را دانلود کنید:

// api را مقداردهی اولیه کنید
var fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);

// ایجاد درخواست دانلود فایل
let request = new groupdocs_parser_cloud.DownloadFileRequest("parser/images/sample_docx/image_0.png", myStorage);

// دریافت فایل
let response = await fileApi.downloadFile(request);

// ذخیره فایل تصویر در پوشه کاری
fs.writeFile("C:\\Files\\images\\image_0.png", response, "binary", function (err) { });
console.log(response);

استخراج متن از اسناد Word با استفاده از Node.js

با انجام مراحل ذکر شده در زیر به راحتی می توانید تمام متن ها را از اسناد Word استخراج کنید.

  • یک نمونه از ParseApi ایجاد کنید
  • یک نمونه از FileInfo ایجاد کنید
  • مسیر را برای فایل DOCX تنظیم کنید
  • یک نمونه از TextOptions ایجاد کنید
  • FileInfo را به TextOptions اختصاص دهید
  • شماره صفحه شروع را تنظیم کنید
  • FormattedTextOptions را تعریف کنید
  • TextRequest ایجاد کنید
  • با فراخوانی روش ParseApi.text() به نتیجه برسید

نمونه کد زیر نحوه استخراج متن از فایل DOCX با استفاده از REST API را نشان می دهد.

// مقداردهی اولیه api
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// اطلاعات فایل نمونه
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.docx";

// گزینه های متن را تعریف کنید
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;
options.formattedTextOptions = new groupdocs_parser_cloud.FormattedTextOptions({
  mode: "Html"  // extract text in HTML
});

// درخواست متن ایجاد کنید
let request = new groupdocs_parser_cloud.TextRequest(options);

// دریافت متن
let result = await parseApi.text(request);

// نمایش متن استخراج شده
let pages = result.pages;
pages.forEach(page => console.log(page.text));
استخراج متن از اسناد Word با استفاده از Node.js

استخراج متن از اسناد Word با استفاده از Node.js

آنلاین را امتحان کنید

لطفاً ابزار تجزیه آنلاین رایگان DOCX زیر را که با استفاده از API فوق توسعه یافته است، امتحان کنید. https://products.groupdocs.app/parser/docx

نتیجه

در این مقاله نحوه تجزیه اسناد ورد در فضای ابری را یاد گرفتید. همچنین نحوه استخراج تصاویر و متن از فایل های DOCX را با استفاده از REST API در Node.js آموخته اید. این مقاله همچنین نحوه آپلود برنامه‌ای یک فایل DOCX را در فضای ابری و دانلود فایل‌های تصویری از Cloud توضیح داد. می توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API بیشتر بیاموزید. ما همچنین یک بخش API Reference ارائه می‌کنیم که به شما امکان می‌دهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آن‌ها تعامل داشته باشید. در صورت وجود هرگونه ابهام، لطفاً با ما در [فروم 13 تماس بگیرید.

همچنین ببینید