पायथन का उपयोग करके पीडीएफ से टेक्स्ट निकालें

आपको अपने पायथन अनुप्रयोगों में पीडीएफ दस्तावेज़ों से पाठ पढ़ने और निकालने की आवश्यकता हो सकती है। तो, एक पायथन डेवलपर के रूप में, आप क्लाउड पर प्रोग्रामेटिक रूप से पीडीएफ दस्तावेज़ों से सभी पाठ आसानी से निकाल सकते हैं। यह लेख समझाएगा कि पायथन में REST API का उपयोग करके PDF दस्तावेज़ों से टेक्स्ट कैसे निकाला जाए।

इस लेख में निम्नलिखित विषयों को शामिल किया जाएगा:

दस्तावेज़ पार्सर रेस्ट एपीआई और पायथन एसडीके

एक पीडीएफ दस्तावेज़ से पाठ निकालने के लिए, मैं Python SDK of GroupDocs.Parser Cloud एपीआई का उपयोग करूंगा। यह अजगर को पीडीएफ से पाठ प्राप्त करने और सभी लोकप्रिय दस्तावेज़ प्रकारों से डेटा पार्स करने की अनुमति देता है। आप एसडीके का उपयोग कर टेम्पलेट द्वारा टेक्स्ट, इमेज और डेटा पार्स कर सकते हैं। यह क्लाउड एपीआई के लिए अपने दस्तावेज़ पार्सर परिवार के सदस्यों के रूप में .NET, Java, PHP, Ruby और Node.js SDK भी प्रदान करता है।

आप कंसोल में निम्न आदेश का उपयोग करके पाइप (पायथन के लिए पैकेज इंस्टॉलर) के साथ अपने पायथन प्रोजेक्ट में GroupDocs.Parser क्लाउड स्थापित कर सकते हैं:

pip install groupdocs_parser_cloud

चरणों और उपलब्ध कोड उदाहरणों का पालन शुरू करने से पहले कृपया डैशबोर्ड से अपनी क्लाइंट आईडी और क्लाइंट सीक्रेट प्राप्त करें। एक बार आपके पास अपनी क्लाइंट आईडी और सीक्रेट होने के बाद, नीचे दिखाए गए अनुसार कोड जोड़ें:

client_id = "112f0f38-9dae-42d5-b4fc-cc84ae644972"
client_secret = "16ad3fe0bdc39c910f57d2fd48a5d618"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

पायथन में REST API का उपयोग करके PDF से टेक्स्ट निकालें

आप नीचे बताए गए सरल चरणों का पालन करके पीडीएफ दस्तावेज़ों से टेक्स्ट निकाल सकते हैं:

दस्तावेज़ अपलोड करें

सबसे पहले, नीचे दिए गए कोड उदाहरण का उपयोग करके पीडीएफ पायथन से टेक्स्ट प्राप्त करने के लिए पीडीएफ दस्तावेज़ अपलोड करें:

# एपीआई आरंभीकरण
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
my_storage = ""

request = groupdocs_parser_cloud.UploadFileRequest("sample.pdf", "C:\\Files\\sample.pdf", my_storage)
response = file_api.upload_file(request)

परिणामस्वरूप, अपलोड की गई PDF फ़ाइल (sample.pdf) क्लाउड पर आपके डैशबोर्ड के फ़ाइल अनुभाग में उपलब्ध होगी। अब आप पीडीएफ से सामग्री निकालने के लिए तैयार हैं।

पायथन का उपयोग करके पीडीएफ दस्तावेज़ों से टेक्स्ट निकालें

आप नीचे बताए गए चरणों का पालन करके आसानी से पीडीएफ से टेक्स्ट को पाइथन प्रोग्रामेटिक रूप से निकाल सकते हैं।

  • ParseApi का एक उदाहरण बनाएँ
  • टेक्स्टऑप्शन को परिभाषित करें
  • पीडीएफ फाइल के लिए पथ सेट करें
  • टेक्स्ट रिक्वेस्ट बनाएं
  • ParseApi.text() विधि को कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ से सभी पाठ कैसे निकालें।

# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# पाठ विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.text)
संपूर्ण दस्तावेज़ से टेक्स्ट निकालें

संपूर्ण दस्तावेज़ से टेक्स्ट निकालें

पायथन का उपयोग करके पीडीएफ दस्तावेज़ों से पृष्ठ संख्या द्वारा पाठ पढ़ें

आप नीचे बताए गए चरणों का पालन करके आसानी से पीडीएफ फाइल के विशिष्ट पृष्ठों से टेक्स्ट को प्रोग्रामेटिक रूप से निकाल सकते हैं।

  • ParseApi का एक उदाहरण बनाएँ
  • टेक्स्टऑप्शन को परिभाषित करें
  • पीडीएफ फाइल को पथ प्रदान करें
  • प्रारंभ पृष्ठ संख्या सेट करें
  • निकालने के लिए पृष्ठों की संख्या निर्धारित करें
  • टेक्स्ट रिक्वेस्ट बनाएं
  • ParseApi.text() विधि को कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके पृष्ठ संख्या श्रेणी द्वारा Python में pdf से शब्दों को कैसे निकाला जाए।

# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# पाठ विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "sample.pdf"
options.start_page_number = 1
options.count_pages_to_extract = 2

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

for page in result.pages:
    print("PageIndex: " + str(page.page_index) + ". Text: " + page.text)
पृष्ठ संख्या श्रेणी द्वारा पीडीएफ़ फ़ाइल से टेक्स्ट निकालें

पृष्ठ संख्या श्रेणी द्वारा टेक्स्ट निकालें

पायथन का उपयोग करके पीडीएफ के साथ संलग्न दस्तावेज़ से पाठ प्राप्त करें

आप नीचे दिए गए चरणों का पालन करके प्रोग्रामेटिक रूप से एक पीडीएफ फाइल में अटैचमेंट के रूप में उपलब्ध एक कंटेनर के अंदर एक दस्तावेज़ से टेक्स्ट निकाल सकते हैं।

  • ParseApi का एक उदाहरण बनाएँ
  • टेक्स्टऑप्शन को परिभाषित करें
  • पीडीएफ फाइल के लिए पथ सेट करें
  • कंटेनरआइटमइन्फो को परिभाषित करें
  • अंदर के दस्तावेज़ का सापेक्ष पथ प्रदान करें
  • प्रारंभ पृष्ठ संख्या सेट करें
  • निकालने के लिए पृष्ठों की संख्या निर्धारित करें
  • टेक्स्ट रिक्वेस्ट बनाएं
  • ParseApi.text() विधि को कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ के अंदर दस्तावेज़ से टेक्स्ट कैसे निकाला जाए।

# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# पाठ विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "PDF_with_attachements.pdf"
options.file_info.password = "password"
container_info = groupdocs_parser_cloud.ContainerItemInfo()
container_info.relative_path = "template-document.pdf"
options.container_item_info = container_info
options.start_page_number = 2
options.count_pages_to_extract = 1

request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)

print("Text: " + result.pages[0].text)
एक कंटेनर के अंदर एक दस्तावेज़ से टेक्स्ट निकालें

एक कंटेनर के अंदर एक दस्तावेज़ से पाठ निकालें

ऑनलाइन प्रयास करें

पीडीऍफ़ ऑनलाइन फ्री में टेक्स्ट कैसे निकालें? कृपया पीडीएफ़ से टेक्स्ट निकालने के लिए निम्नलिखित मुफ्त ऑनलाइन पीडीएफ पार्सिंग टूल का प्रयास करें। यह पीडीएफ टेक्स्ट एक्सट्रैक्टर उपरोक्त एपीआई का उपयोग करके विकसित किया गया है। https://products.groupdocs.app/parser/pdf

निष्कर्ष

इस लेख में, आपने क्लाउड पर PDF दस्तावेज़ों से टेक्स्ट निकालने का तरीका सीखा है। इस लेख में यह भी बताया गया है कि क्लाउड और पीडीएफ टेक्स्ट एक्सट्रैक्टर पर पीडीएफ फाइल को प्रोग्रामेटिक रूप से कैसे अपलोड किया जाए। इसके अलावा, हमने पृष्ठ संख्या द्वारा पीडीएफ से केवल पाठ निकालना और संलग्न दस्तावेज़ से पीडीएफ से अजगर पाठ निष्कर्षण भी सीखा।

आप दस्तावेज़ का उपयोग करके GroupDocs.Parser Cloud API के बारे में अधिक जान सकते हैं। हम एक एपीआई संदर्भ अनुभाग भी प्रदान करते हैं जो आपको सीधे ब्राउज़र के माध्यम से हमारे एपीआई के साथ कल्पना और बातचीत करने देता है। पीडीएफ पाठ निष्कर्षण और पीडीएफ पायथन से पाठ निकालने के बारे में किसी भी अस्पष्टता के मामले में, कृपया बेझिझक हमसे फोरम पर संपर्क करें।

यह सभी देखें