पायथन एक पीडीएफ दस्तावेज़ से टेक्स्ट निकालें

पीडीएफ (पोर्टेबल डॉक्यूमेंट फॉर्मेट) दस्तावेजों को प्रस्तुत करने और आदान-प्रदान करने के लिए उपयोग किए जाने वाले सबसे महत्वपूर्ण और व्यापक रूप से उपयोग किए जाने वाले फ़ाइल प्रारूप में से एक है। एक पायथन डेवलपर के रूप में, ऐसे कई परिदृश्य हैं जहां आप पीडीएफ दस्तावेज़ से टेक्स्ट निकालना चाहेंगे और टेक्स्ट एनालिटिक्स के लिए पायथन का उपयोग करके इसे एक अलग प्रारूप में निर्यात करना चाहेंगे। इस पोस्ट में, हम आपको दिखाएंगे कि GroupDocs.Conversion Cloud SDK for Python का उपयोग करके पीडीएफ दस्तावेज़ से टेक्स्ट को सटीक रूप से कैसे निकाला जाए।

GroupDocs.Conversion Cloud किसी तीसरे पक्ष के एप्लिकेशन पर निर्भर हुए बिना दस्तावेज़ और छवि रूपांतरण का एक प्लेटफ़ॉर्म स्वतंत्र REST API समाधान है। यह 50+ प्रकार के दस्तावेज़ों को एक प्रारूप से दूसरे प्रारूप में परिवर्तित करता है। यह पायथन सहित सभी लोकप्रिय प्रोग्रामिंग भाषाओं के लिए एसडीके प्रदान करता है, इसलिए डेवलपर्स अंतर्निहित आरईएसटी एपीआई कॉल के बारे में चिंता किए बिना सीधे अपने अनुप्रयोगों में एपीआई का उपयोग कर सकते हैं।

आइए कोड शुरू करें:

GroupDocs.Conversion क्लाउड पैकेज स्थापित करें

सबसे पहली बात, निम्न आदेश के साथ pypi से ग्रुपडॉक्स-रूपांतरण-क्लाउड पैकेज स्थापित करें।

>पाइप इंस्टाल ग्रुपडॉक्स-रूपांतरण-क्लाउड

पायथन पीडीएफ टेक्स्ट एक्सट्रैक्शन उदाहरण

पीडीएफ दस्तावेज़ से टेक्स्ट निकालने के लिए हम इन चरणों का पालन करेंगे:

  • Groupdocs.cloud के साथ निःशुल्क साइन अप करें to get your AppSID and AppKey
  • एक पायथन मॉड्यूल बनाएं और उसमें निम्नलिखित कोड कॉपी पेस्ट करें। हमने पीडीएफ दस्तावेज़ का टेक्स्ट निकालने के लिए डिफ़ॉल्ट विकल्पों का उपयोग किया है। आप टेक्स्ट प्रारूप के कन्वर्ट विकल्प का उपयोग करके विशिष्ट पृष्ठों का टेक्स्ट भी निकाल सकते हैं।
# मॉड्यूल आयात करें
import groupdocs_conversion_cloud

# अपना ऐप_सिड और ऐप_की https://dashboard.groupdocs.cloud पर प्राप्त करें (निःशुल्क पंजीकरण आवश्यक है)।
app_sid = "xxxxx-xxxx-xxxx-xxxx-xxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# एपीआई का उदाहरण बनाएं
convert_api = groupdocs_conversion_cloud.ConvertApi.from_keys(app_sid, app_key)
file_api = groupdocs_conversion_cloud.FileApi.from_keys(app_sid, app_key)

try:

        #upload soruce file to storage
        filename = '02_pages.pdf'
        remote_name = '02_pages.pdf'
        output_name= 'sample.txt'
        strformat='txt'

        request_upload = groupdocs_conversion_cloud.UploadFileRequest(remote_name,filename)
        response_upload = file_api.upload_file(request_upload)
        #Extract Text from PDF document
        settings = groupdocs_conversion_cloud.ConvertSettings()
        settings.file_path =remote_name
        settings.format = strformat
        settings.output_path = output_name
                
        request = groupdocs_conversion_cloud.ConvertDocumentRequest(settings)
        response = convert_api.convert_document(request)

        print("Document converted successfully: " + str(response))
except groupdocs_conversion_cloud.ApiException as e:
        print("Exception when calling get_supported_conversion_types: {0}".format(e.message))
  • अपने पसंदीदा आईडीई में कोड चलाएं, आपको निम्नलिखित आउटपुट मिलेगा और बस इतना ही। कार्य पूरा हुआ!
Document converted successfully: [{'name': 'sample.txt',
 'path': 'sample.txt',
 'size': 791,
 'url': 'https://api.groupdocs.cloud/v2.0/conversion/storage/file/sample.txt'}]

GroupDocs.Conversion Cloud API के बारे में अपने विचार साझा करते हुए बेझिझक हमें support forum पर एक टिप्पणी दें। या यदि आपके पास कोई सुझाव है या आपको किसी विशेष सुविधा की आवश्यकता है, जिसकी आप अपेक्षा करते हैं कि हमारे REST API में है तो हमें बताएं।