ऑनलाइन पीडीएफ पेज एक्सट्रैक्टर का उपयोग करके स्कैन किए गए पीडीएफ या स्क्रैपिंग पीडीएफ से डेटा निकालें।

पायथन का उपयोग करके पीडीएफ से डेटा कैसे निकालें

आपको यूजर-डिफ़ाइंड टेम्प्लेट का उपयोग करके अपने PDF या Word दस्तावेज़ों से डेटा निकालने की आवश्यकता हो सकती है। आप किसी भी दस्तावेज़ को पार्स कर सकते हैं और क्लाउड पर प्रोग्रामेटिक रूप से फ़ील्ड और टेबल डेटा निकाल सकते हैं। यह आलेख समझाएगा कि पायथन में REST API का उपयोग करके PDF दस्तावेज़ों से विशिष्ट डेटा कैसे निकाला जाए।

इस लेख में निम्नलिखित विषयों को शामिल किया जाएगा:

दस्तावेज़ पार्सर रेस्ट एपीआई और पायथन एसडीके

एक पीडीएफ दस्तावेज़ को पार्स करने और एक टेम्पलेट के आधार पर डेटा निकालने के लिए, मैं Python SDK of GroupDocs.Parser Cloud एपीआई का उपयोग करूंगा। यह आपको सभी लोकप्रिय दस्तावेज़ प्रकारों जैसे PDF दस्तावेज़, Microsoft Office दस्तावेज़ और OpenDocument फ़ाइल स्वरूपों से डेटा पार्स करने की अनुमति देता है। आप एसडीके का उपयोग कर टेम्पलेट द्वारा टेक्स्ट, इमेज और डेटा पार्स कर सकते हैं। यह क्लाउड एपीआई के लिए अपने दस्तावेज़ पार्सर परिवार के सदस्यों के रूप में .NET, Java, PHP, Ruby और Node.js SDK भी प्रदान करता है।

आप पीडीएफ से जानकारी निकालने के लिए कंसोल में निम्न आदेश का उपयोग करके पाइप (पायथन के लिए पैकेज इंस्टॉलर) के साथ अपने पायथन प्रोजेक्ट में GroupDocs.Parser क्लाउड स्थापित कर सकते हैं:

pip install groupdocs_parser_cloud

कृपया डैशबोर्ड से अपनी क्लाइंट आईडी और क्लाइंट सीक्रेट प्राप्त करें और नीचे दिखाए अनुसार कोड जोड़ें:

client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"

configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""

पायथन का उपयोग करके टेम्पलेट ऑब्जेक्ट द्वारा डेटा निकालें

आप नीचे बताए गए सरल चरणों का पालन करके एक टेम्पलेट का उपयोग करके PDF दस्तावेज़ों से डेटा निकाल सकते हैं:

दस्तावेज़ अपलोड करें

सबसे पहले, नीचे दिए गए कोड उदाहरण का उपयोग करके PDF दस्तावेज़ को क्लाउड पर अपलोड करें:

# एपीआई का उदाहरण बनाएँ
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# नमूना फ़ाइलें अपलोड करें
request = groupdocs_parser_cloud.UploadFileRequest("companies.pdf", "C:\\Files\\companies.pdf", my_storage)
response = file_api.upload_file(request)

नतीजतन, अपलोड की गई पीडीएफ फाइल क्लाउड पर आपके डैशबोर्ड के फाइल सेक्शन में उपलब्ध होगी।

पायथन का उपयोग करके टेम्पलेट-आधारित डेटा निष्कर्षण

प्रोग्रामेटिक रूप से टेम्प्लेट के आधार पर पीडीएफ फाइल से डेटा निकालने के लिए कृपया नीचे दिए गए चरणों का पालन करें।

  1. ParseApi का एक उदाहरण बनाएँ
  2. ParseOptions को परिभाषित करें और PDF फ़ाइल के लिए पथ सेट करें
  3. एक वस्तु के रूप में टेम्पलेट बनाएँ
  4. पार्स रिक्वेस्ट बनाएं
  5. ParseApi.parse() विधि को कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ से परिभाषित टेम्पलेट के अनुसार डेटा कैसे निकाला जाए।

# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# पार्स विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "companies.pdf"

# टेम्प्लेट ऑब्जेक्ट प्राप्त करें
options.template = GetTemplate()  

# पार्स अनुरोध
request = groupdocs_parser_cloud.ParseRequest(options)
result = parseApi.parse(request)

# परिणाम दिखाएं
for data in result.fields_data:
    if data.page_area.page_text_area is not None:
        print("Field name: " + data.name + ". Text :" + data.page_area.page_text_area.text)

    if data.page_area.page_table_area is not None:
        print("Table name: " + data.name)
       for cell in data.page_area.page_table_area.page_table_area_cells:
            print("Table cell. Row " + str(cell.row_index) + " column " + str(cell.column_index) + ". Text: " + cell.page_area.page_text_area.text);

कृपया पीडीएफ दस्तावेज़ के अनुसार बनाए गए टेम्पलेट के नीचे देखें।

def GetTemplate():
        field1 = groupdocs_parser_cloud.Field()
        field1.field_name = "Address"
        fieldPosition1 = groupdocs_parser_cloud.FieldPosition()
        fieldPosition1.field_position_type = "Regex"
        fieldPosition1.regex = "Company address:"
        field1.field_position = fieldPosition1

        field2 = groupdocs_parser_cloud.Field()
        field2.field_name = "CompanyAddress"
        fieldPosition2 = groupdocs_parser_cloud.FieldPosition()
        fieldPosition2.field_position_type = "Linked"
        fieldPosition2.linked_field_name = "ADDRESS"
        fieldPosition2.is_right_linked = True
        size2 = groupdocs_parser_cloud.Size()
        size2.width = 100
        size2.height = 10
        fieldPosition2.search_area = size2
        fieldPosition2.auto_scale = True
        field2.field_position = fieldPosition2
        
        field3 = groupdocs_parser_cloud.Field()
        field3.field_name = "Company"
        fieldPosition3 = groupdocs_parser_cloud.FieldPosition()
        fieldPosition3.field_position_type = "Regex"
        fieldPosition3.regex = "Company name:"
        field3.field_position = fieldPosition3
        
        field4 = groupdocs_parser_cloud.Field()
        field4.field_name = "CompanyName"
        fieldPosition4 = groupdocs_parser_cloud.FieldPosition()
        fieldPosition4.field_position_type = "Linked"
        fieldPosition4.linked_field_name = "Company"
        fieldPosition4.is_right_linked = True
        size4 = groupdocs_parser_cloud.Size()
        size4.width = 100
        size4.height = 10
        fieldPosition4.search_area = size4
        fieldPosition4.auto_scale = True
        field4.field_position = fieldPosition4
        
        table = groupdocs_parser_cloud.Table()
        table.table_name = "Companies"
        detectorparams = groupdocs_parser_cloud.DetectorParameters()
        rect = groupdocs_parser_cloud.Rectangle()
        size = groupdocs_parser_cloud.Size()
        size.height = 60
        size.width = 480
        position = groupdocs_parser_cloud.Point()
        position.x = 77
        position.y = 279
        rect.size = size
        rect.position = position
        detectorparams.rectangle = rect
        table.detector_parameters = detectorparams
        
        fields = [field1, field2, field3, field4]
        tables = [table]
        
        template = groupdocs_parser_cloud.Template()
        template.fields = fields
        template.tables = tables
        return template
टेम्पलेट का उपयोग कर दस्तावेज़ को पार्स करके डेटा निकाला गया

टेम्पलेट का उपयोग कर दस्तावेज़ को पार्स करके डेटा निकाला गया

पायथन का उपयोग करके टेम्पलेट फ़ाइल द्वारा डेटा निकालें

आप JSON-आधारित टेम्प्लेट फ़ाइल प्रोग्रामेटिक रूप से प्रदान करके PDF दस्तावेज़ से डेटा भी निकाल सकते हैं। एक टेम्प्लेट फ़ाइल प्रदान करके दस्तावेज़ को पार्स करने के लिए कृपया नीचे दिए गए चरणों का पालन करें।

  1. ParseApi का एक उदाहरण बनाएँ
  2. ParseOptions को परिभाषित करें
  3. पीडीएफ फाइल के लिए पथ सेट करें
  4. टेम्पलेट फ़ाइल का पथ सेट करें
  5. पार्स रिक्वेस्ट बनाएं
  6. ParseApi.parse() विधि को कॉल करके परिणाम प्राप्त करें

निम्न कोड नमूना दिखाता है कि कैसे एक पीडीएफ दस्तावेज़ को पार्स करना है और एक रेस्ट एपीआई का उपयोग करके JSON फ़ाइल में दिए गए टेम्पलेट के अनुसार डेटा निकालना है। फ़ाइलों को अपलोड करने के लिए कृपया पहले बताए गए चरणों का पालन करें।

# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

# पार्स विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "companies.pdf"
options.template_path = "template.json"

# पार्स अनुरोध
request = groupdocs_parser_cloud.ParseRequest(options)
result = parseApi.parse(request)

# परिणाम दिखाएं
for data in result.fields_data:
    if data.page_area.page_text_area is not None:
        print("Field name: " + data.name + ". Text :" + data.page_area.page_text_area.text)

    if data.page_area.page_table_area is not None:
        print("Table name: " + data.name)
       for cell in data.page_area.page_table_area.page_table_area_cells:
            print("Table cell. Row " + str(cell.row_index) + " column " + str(cell.column_index) + ". Text: " + cell.page_area.page_text_area.text);

कृपया JSON प्रारूप में टेम्पलेट के नीचे खोजें।

{
  "Fields": [
    {
      "FieldName": "Address",
      "FieldPosition": {
        "FieldPositionType": "Regex",
        "Regex": "Companyaddress:"
      }
    },
    {
      "FieldName": "CompanyAddress",
      "FieldPosition": {
        "FieldPositionType": "Linked",
        "LinkedFieldName": "ADDRESS",
        "IsRightLinked": true,
        "SearchArea": {
          "Height": 10.0,
          "Width": 100.0
        },
        "AutoScale": true
      }
    },
    {
      "FieldName": "Company",
      "FieldPosition": {
        "FieldPositionType": "Regex",
        "Regex": "Companyname:"
      }
    },
    {
      "FieldName": "CompanyName",
      "FieldPosition": {
        "FieldPositionType": "Linked",
        "LinkedFieldName": "Company",
        "IsRightLinked": true,
        "SearchArea": {
          "Height": 10.0,
          "Width": 100.0
        },
        "AutoScale": true
      }
    }
  ],
  "Tables": [
    {
      "TableName": "Companies",
      "DetectorParameters": {
        "Rectangle": {
          "Position": {
            "X": 77.0,
            "Y": 279.0
          },
          "Size": {
            "Height": 41.0,
            "Width": 480.0
          }
        }
      }
    }
  ]
}

पीडीएफ फाइल को ऑनलाइन एक्सट्रेक्ट करें

पीडीएफ एक्सट्रैक्टर का ऑनलाइन फ्री में उपयोग कैसे करें? कृपया निम्नलिखित मुफ्त ऑनलाइन पीडीएफ पार्सिंग टूल और मुफ्त पीडीएफ पेज एक्सट्रैक्टर का प्रयास करें। यह ऑनलाइन पीडीएफ एक्सट्रैक्टर और एक्सट्रेक्ट पीडीएफ ऑनलाइन फ्री टूल उपरोक्त एपीआई का उपयोग करके विकसित किया गया है। https://products.groupdocs.app/parser/pdf

निष्कर्ष

इस लेख में, आपने सीखा है कि क्लाउड पर दिए गए टेम्पलेट के अनुसार PDF दस्तावेज़ों से विशिष्ट डेटा कैसे निकाला जाता है। आपने यह भी सीखा कि टेम्प्लेट ऑब्जेक्ट कैसे बनाया जाता है और JSON फॉर्मेट में टेम्प्लेट प्रदान किया जाता है। इस लेख में यह भी बताया गया है कि पीडीएफ डेटा निष्कर्षण ऑनलाइन के लिए क्लाउड पर पीडीएफ फाइल को प्रोग्रामेटिक रूप से कैसे अपलोड किया जाए। दस्तावेज़ का उपयोग करके आप GroupDocs.Parser Cloud API के बारे में अधिक जान सकते हैं। हम एक एपीआई संदर्भ अनुभाग भी प्रदान करते हैं जो आपको सीधे ब्राउज़र के माध्यम से हमारे एपीआई को देखने और बातचीत करने देता है।

प्रश्न पूछें

यदि आपके पास पीडीएफ और पीडीएफ डेटा निष्कर्षण ऑनलाइन से डेटा निकालने के बारे में कोई प्रश्न हैं, तो कृपया बेझिझक हमसे फ्री सपोर्ट फोरम पर पूछें।

यह सभी देखें