Node.js में REST API का उपयोग करके PDF से टेक्स्ट निकालें

आप अपने PDF दस्तावेज़ों को आसानी से पार्स कर सकते हैं और क्लाउड पर प्रोग्रामेटिक रूप से सभी टेक्स्ट निकाल सकते हैं। इस लेख में, आप जानेंगे कि Node.js में REST API का उपयोग करके PDF दस्तावेज़ों से टेक्स्ट कैसे निकाला जाता है।

इस लेख में निम्नलिखित विषयों को शामिल किया जाएगा:

टेक्स्ट निकालने के लिए PDF पार्सर REST API और Node.js SDK

PDF दस्तावेज़ों को पार्स करने के लिए, मैं GroupDocs.Parser Cloud के Node.js SDK API का उपयोग करूंगा। यह आपको 50 से अधिक प्रकार के समर्थित दस्तावेज़ प्रारूप से डेटा पार्स करने की अनुमति देता है। यह आपके Node.js अनुप्रयोगों में ज़िप अभिलेखागार, OST मेल डेटा फ़ाइलों, ई-पुस्तकों, मार्कअप और पीडीएफ पोर्टफोलियो जैसे कंटेनरों की पार्सिंग का भी समर्थन करता है। आप एसडीके का उपयोग कर टेम्पलेट द्वारा टेक्स्ट, इमेज और डेटा पार्स कर सकते हैं। यह क्लाउड एपीआई के लिए अपने दस्तावेज़ पार्सर परिवार के सदस्यों के रूप में .NET, Java, PHP, Ruby और Python SDKs भी प्रदान करता है।

आप कंसोल में निम्न आदेश का उपयोग करके GroupDocs.Parser क्लाउड को अपने Node.js एप्लिकेशन में इंस्टॉल कर सकते हैं:

npm install groupdocs-parser-cloud

कृपया उल्लिखित चरणों का पालन करने से पहले डैशबोर्ड से अपनी क्लाइंट आईडी और सीक्रेट प्राप्त करें। एक बार आपके पास अपनी आईडी और रहस्य होने के बाद, नीचे दिखाए गए कोड में जोड़ें:

global.clientId = "112f0f38-9dae-42d5-b4fc-cc84ae644972";
global.clientSecret = "16ad3fe0bdc39c910f57d2fd48a5d618";
global.myStorage = "";

const configuration = new groupdocs_parser_cloud.Configuration(clientId, clientSecret);
configuration.apiBaseUrl = "https://api.groupdocs.cloud";

Node.js में REST API का उपयोग करके PDF से टेक्स्ट निकालें

आप नीचे बताए गए सरल चरणों का पालन करके पीडीएफ दस्तावेज़ों से टेक्स्ट निकाल सकते हैं:

दस्तावेज़ अपलोड करें

सबसे पहले, नीचे दिए गए कोड उदाहरण का उपयोग करके PDF दस्तावेज़ को क्लाउड पर अपलोड करें:

// FileApi का निर्माण करें
let fileApi = groupdocs_parser_cloud.FileApi.fromConfig(configuration);
let filePath = 'C:\\Files\\Parser\\sample.pdf';

fs.readFile(filePath, (err, fileStream) => {
  // फ़ाइल अपलोड अनुरोध बनाएँ
  let request = new groupdocs_parser_cloud.UploadFileRequest("sample.pdf", fileStream, myStorage);
  // फ़ाइल अपलोड करें
  fileApi.uploadFile(request);
});

नतीजतन, अपलोड की गई पीडीएफ फाइल क्लाउड पर आपके डैशबोर्ड के फाइल सेक्शन में उपलब्ध होगी।

Node.js का उपयोग करके PDF दस्तावेज़ों से टेक्स्ट निकालें

आप नीचे दिए गए चरणों का पालन करके प्रोग्रामेटिक रूप से पीडीएफ दस्तावेजों से सभी पाठ आसानी से निकाल सकते हैं:

  • ParseApi का एक उदाहरण बनाएँ।
  • FileInfo का एक उदाहरण बनाएँ।
  • फिर, पीडीएफ फाइल के लिए पथ निर्धारित करें।
  • टेक्स्टऑप्शन का एक उदाहरण बनाएं।
  • फिर, FileInfo को TextOptions को असाइन करें।
  • अब, TextOptions के साथ TextRequest का एक उदाहरण बनाएँ।
  • अंत में, ParseApi.text() विधि को TextRequest के साथ कॉल करके परिणाम प्राप्त करें।

निम्न कोड नमूना दिखाता है कि Node.js में REST API का उपयोग करके PDF दस्तावेज़ से सभी टेक्स्ट को कैसे निकाला जाए।

// एपीआई आरंभीकरण
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// इनपुट फ़ाइल
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// पाठ विकल्पों को परिभाषित करें
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;

// पाठ अनुरोध बनाएँ
let request = new groupdocs_parser_cloud.TextRequest(options);

// टेक्स्ट निकालें
let result = await parseApi.text(request);
console.log(result.text);
Node.js में REST API का उपयोग करके PDF से टेक्स्ट निकालें

Node.js में REST API का उपयोग करके PDF से टेक्स्ट निकालें

Node.js का उपयोग करके PDF दस्तावेज़ों से पृष्ठ संख्या द्वारा पाठ प्राप्त करें

आप नीचे दिए गए चरणों का पालन करके प्रोग्रामेटिक रूप से पीडीएफ फाइल के विशिष्ट पृष्ठों से टेक्स्ट निकाल सकते हैं:

  • ParseApi का एक उदाहरण बनाएँ।
  • FileInfo का एक उदाहरण बनाएँ।
  • फिर, पीडीएफ फाइल के लिए पथ निर्धारित करें।
  • टेक्स्टऑप्शन का एक उदाहरण बनाएं।
  • फिर, FileInfo को TextOptions को असाइन करें।
  • निकालने के लिए प्रारंभ पृष्ठ संख्या और पृष्ठों की कुल संख्या निर्धारित करें।
  • अब, TextOptions के साथ TextRequest का एक उदाहरण बनाएँ।
  • अंत में, ParseApi.text() विधि को TextRequest के साथ कॉल करके परिणाम प्राप्त करें।

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ से पृष्ठ संख्या द्वारा पाठ कैसे निकाला जाए।

// एपीआई आरंभीकरण
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// इनपुट फ़ाइल पथ
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "sample.pdf";

// पाठ विकल्पों को परिभाषित करें
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.startPageNumber = 0;
options.countPagesToExtract = 1;

// पाठ अनुरोध बनाएँ
let request = new groupdocs_parser_cloud.TextRequest(options);

// टेक्स्ट निकालें
let result = await parseApi.text(request);

// परिणाम दिखाएं
let pages = result.pages;
pages.forEach(page => console.log("Page No: " + page.pageIndex + 1 + " - " + page.text));
Node.js का उपयोग करके PDF दस्तावेज़ों से पृष्ठ संख्या द्वारा पाठ प्राप्त करें

Node.js का उपयोग करके PDF दस्तावेज़ों से पृष्ठ संख्या द्वारा पाठ प्राप्त करें

नोड.जेएस का उपयोग करके पीडीएफ के साथ संलग्न दस्तावेजों से टेक्स्ट निकालें

आप नीचे बताए गए चरणों का पालन करके, एक कंटेनर के अंदर एक दस्तावेज़ से टेक्स्ट निकाल सकते हैं, जो प्रोग्रामेटिक रूप से एक पीडीएफ फाइल में अटैचमेंट के रूप में उपलब्ध है।

  • ParseApi का एक उदाहरण बनाएँ।
  • FileInfo का एक उदाहरण बनाएँ।
  • फिर, पीडीएफ फाइल के लिए पथ निर्धारित करें।
  • वैकल्पिक रूप से, फ़ाइल पासवर्ड प्रदान करें।
  • अब, कंटेनरइटमइन्फो का एक उदाहरण बनाएं
  • उसके बाद, संलग्न फ़ाइल के लिए सापेक्ष पथ सेट करें
  • टेक्स्टऑप्शन का एक उदाहरण बनाएं।
  • फिर, TextOptions को FileInfo और कंटेनरआइटमइन्फो असाइन करें।
  • अब, TextOptions के साथ TextRequest का एक उदाहरण बनाएँ
  • अंत में, ParseApi.text() विधि को TextRequest के साथ कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ के अंदर दस्तावेज़ से टेक्स्ट कैसे निकाला जाए।

// एपीआई आरंभीकरण
let parseApi = groupdocs_parser_cloud.ParseApi.fromConfig(configuration);

// इनपुट फ़ाइल
let fileInfo = new groupdocs_parser_cloud.FileInfo();
fileInfo.filePath = "PDF_with_Attachments.pdf";
fileInfo.password = "password";

// इनपुट कंटेनर आइटम
let containerInfo = new groupdocs_parser_cloud.ContainerItemInfo();
containerInfo.relativePath = "template-document.pdf";

// पाठ विकल्पों को परिभाषित करें
let options = new groupdocs_parser_cloud.TextOptions();
options.fileInfo = fileInfo;
options.containerItemInfo = containerInfo;

// पाठ अनुरोध बनाएँ
let request = new groupdocs_parser_cloud.TextRequest(options);

// टेक्स्ट निकालें
let result = await parseApi.text(request);
console.log(result.text);
नोड.जेएस का उपयोग करके पीडीएफ के साथ संलग्न दस्तावेजों से टेक्स्ट निकालें

नोड.जेएस का उपयोग करके पीडीएफ के साथ संलग्न दस्तावेजों से टेक्स्ट निकालें

ऑनलाइन प्रयास करें

कृपया निम्नलिखित मुफ्त ऑनलाइन पीडीएफ पार्सिंग टूल का प्रयास करें, जिसे उपरोक्त एपीआई का उपयोग करके विकसित किया गया है। https://products.groupdocs.app/parser/pdf

निष्कर्ष

इस लेख में, आपने क्लाउड पर PDF दस्तावेज़ों को पार्स करना सीखा है। इसके अलावा, आपने देखा है कि Node.js में REST API का उपयोग करके पृष्ठ संख्या और पीडीएफ फाइलों के कंटेनर आइटम से टेक्स्ट कैसे निकाला जाता है। इस लेख में यह भी बताया गया है कि क्लाउड पर पीडीएफ फाइल को प्रोग्रामेटिक रूप से कैसे अपलोड किया जाए। इसके अलावा, आप दस्तावेज़ का उपयोग करके GroupDocs.Parser Cloud API के बारे में अधिक जान सकते हैं। हम एक एपीआई संदर्भ अनुभाग भी प्रदान करते हैं जो आपको सीधे ब्राउज़र के माध्यम से हमारे एपीआई के साथ कल्पना और बातचीत करने देता है। किसी भी अस्पष्टता के मामले में, कृपया बेझिझक हमसे फोरम पर संपर्क करें।

यह सभी देखें