आपको यूजर-डिफ़ाइंड टेम्प्लेट का उपयोग करके अपने PDF या Word दस्तावेज़ों से डेटा निकालने की आवश्यकता हो सकती है। आप किसी भी दस्तावेज़ को पार्स कर सकते हैं और क्लाउड पर प्रोग्रामेटिक रूप से फ़ील्ड और टेबल डेटा निकाल सकते हैं। यह आलेख समझाएगा कि पायथन में REST API का उपयोग करके PDF दस्तावेज़ों से विशिष्ट डेटा कैसे निकाला जाए।
इस लेख में निम्नलिखित विषयों को शामिल किया जाएगा:
- दस्तावेज़ पार्सर रेस्ट एपीआई और पायथन एसडीके
- पायथन का उपयोग करके टेम्पलेट ऑब्जेक्ट द्वारा डेटा निकालें
- पायथन का उपयोग करके टेम्पलेट फ़ाइल द्वारा डेटा निकालें
दस्तावेज़ पार्सर रेस्ट एपीआई और पायथन एसडीके
एक पीडीएफ दस्तावेज़ को पार्स करने और एक टेम्पलेट के आधार पर डेटा निकालने के लिए, मैं Python SDK of GroupDocs.Parser Cloud एपीआई का उपयोग करूंगा। यह आपको सभी लोकप्रिय दस्तावेज़ प्रकारों जैसे PDF दस्तावेज़, Microsoft Office दस्तावेज़ और OpenDocument फ़ाइल स्वरूपों से डेटा पार्स करने की अनुमति देता है। आप एसडीके का उपयोग कर टेम्पलेट द्वारा टेक्स्ट, इमेज और डेटा पार्स कर सकते हैं। यह क्लाउड एपीआई के लिए अपने दस्तावेज़ पार्सर परिवार के सदस्यों के रूप में .NET, Java, PHP, Ruby और Node.js SDK भी प्रदान करता है।
आप पीडीएफ से जानकारी निकालने के लिए कंसोल में निम्न आदेश का उपयोग करके पाइप (पायथन के लिए पैकेज इंस्टॉलर) के साथ अपने पायथन प्रोजेक्ट में GroupDocs.Parser क्लाउड स्थापित कर सकते हैं:
pip install groupdocs_parser_cloud
कृपया डैशबोर्ड से अपनी क्लाइंट आईडी और क्लाइंट सीक्रेट प्राप्त करें और नीचे दिखाए अनुसार कोड जोड़ें:
client_id = "da0c487d-c1c0-45ae-b7bf-43eaf53c5ad5"
client_secret = "479db2b01dcb93a3d4d20efb16dea971"
configuration = groupdocs_parser_cloud.Configuration(client_id, client_secret)
configuration.api_base_url = "https://api.groupdocs.cloud"
my_storage = ""
पायथन का उपयोग करके टेम्पलेट ऑब्जेक्ट द्वारा डेटा निकालें
आप नीचे बताए गए सरल चरणों का पालन करके एक टेम्पलेट का उपयोग करके PDF दस्तावेज़ों से डेटा निकाल सकते हैं:
- अपलोड क्लाउड पर पीडीएफ फाइल
- पायथन का उपयोग करके टेम्पलेट-आधारित डेटा निष्कर्षण
दस्तावेज़ अपलोड करें
सबसे पहले, नीचे दिए गए कोड उदाहरण का उपयोग करके PDF दस्तावेज़ को क्लाउड पर अपलोड करें:
# एपीआई का उदाहरण बनाएँ
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# नमूना फ़ाइलें अपलोड करें
request = groupdocs_parser_cloud.UploadFileRequest("companies.pdf", "C:\\Files\\companies.pdf", my_storage)
response = file_api.upload_file(request)
नतीजतन, अपलोड की गई पीडीएफ फाइल क्लाउड पर आपके डैशबोर्ड के फाइल सेक्शन में उपलब्ध होगी।
पायथन का उपयोग करके टेम्पलेट-आधारित डेटा निष्कर्षण
प्रोग्रामेटिक रूप से टेम्प्लेट के आधार पर पीडीएफ फाइल से डेटा निकालने के लिए कृपया नीचे दिए गए चरणों का पालन करें।
- ParseApi का एक उदाहरण बनाएँ
- ParseOptions को परिभाषित करें और PDF फ़ाइल के लिए पथ सेट करें
- एक वस्तु के रूप में टेम्पलेट बनाएँ
- पार्स रिक्वेस्ट बनाएं
- ParseApi.parse() विधि को कॉल करके परिणाम प्राप्त करें
निम्न कोड नमूना दिखाता है कि REST API का उपयोग करके PDF दस्तावेज़ से परिभाषित टेम्पलेट के अनुसार डेटा कैसे निकाला जाए।
# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# पार्स विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "companies.pdf"
# टेम्प्लेट ऑब्जेक्ट प्राप्त करें
options.template = GetTemplate()
# पार्स अनुरोध
request = groupdocs_parser_cloud.ParseRequest(options)
result = parseApi.parse(request)
# परिणाम दिखाएं
for data in result.fields_data:
if data.page_area.page_text_area is not None:
print("Field name: " + data.name + ". Text :" + data.page_area.page_text_area.text)
if data.page_area.page_table_area is not None:
print("Table name: " + data.name)
for cell in data.page_area.page_table_area.page_table_area_cells:
print("Table cell. Row " + str(cell.row_index) + " column " + str(cell.column_index) + ". Text: " + cell.page_area.page_text_area.text);
कृपया पीडीएफ दस्तावेज़ के अनुसार बनाए गए टेम्पलेट के नीचे देखें।
def GetTemplate():
field1 = groupdocs_parser_cloud.Field()
field1.field_name = "Address"
fieldPosition1 = groupdocs_parser_cloud.FieldPosition()
fieldPosition1.field_position_type = "Regex"
fieldPosition1.regex = "Company address:"
field1.field_position = fieldPosition1
field2 = groupdocs_parser_cloud.Field()
field2.field_name = "CompanyAddress"
fieldPosition2 = groupdocs_parser_cloud.FieldPosition()
fieldPosition2.field_position_type = "Linked"
fieldPosition2.linked_field_name = "ADDRESS"
fieldPosition2.is_right_linked = True
size2 = groupdocs_parser_cloud.Size()
size2.width = 100
size2.height = 10
fieldPosition2.search_area = size2
fieldPosition2.auto_scale = True
field2.field_position = fieldPosition2
field3 = groupdocs_parser_cloud.Field()
field3.field_name = "Company"
fieldPosition3 = groupdocs_parser_cloud.FieldPosition()
fieldPosition3.field_position_type = "Regex"
fieldPosition3.regex = "Company name:"
field3.field_position = fieldPosition3
field4 = groupdocs_parser_cloud.Field()
field4.field_name = "CompanyName"
fieldPosition4 = groupdocs_parser_cloud.FieldPosition()
fieldPosition4.field_position_type = "Linked"
fieldPosition4.linked_field_name = "Company"
fieldPosition4.is_right_linked = True
size4 = groupdocs_parser_cloud.Size()
size4.width = 100
size4.height = 10
fieldPosition4.search_area = size4
fieldPosition4.auto_scale = True
field4.field_position = fieldPosition4
table = groupdocs_parser_cloud.Table()
table.table_name = "Companies"
detectorparams = groupdocs_parser_cloud.DetectorParameters()
rect = groupdocs_parser_cloud.Rectangle()
size = groupdocs_parser_cloud.Size()
size.height = 60
size.width = 480
position = groupdocs_parser_cloud.Point()
position.x = 77
position.y = 279
rect.size = size
rect.position = position
detectorparams.rectangle = rect
table.detector_parameters = detectorparams
fields = [field1, field2, field3, field4]
tables = [table]
template = groupdocs_parser_cloud.Template()
template.fields = fields
template.tables = tables
return template
पायथन का उपयोग करके टेम्पलेट फ़ाइल द्वारा डेटा निकालें
आप JSON-आधारित टेम्प्लेट फ़ाइल प्रोग्रामेटिक रूप से प्रदान करके PDF दस्तावेज़ से डेटा भी निकाल सकते हैं। एक टेम्प्लेट फ़ाइल प्रदान करके दस्तावेज़ को पार्स करने के लिए कृपया नीचे दिए गए चरणों का पालन करें।
- ParseApi का एक उदाहरण बनाएँ
- ParseOptions को परिभाषित करें
- पीडीएफ फाइल के लिए पथ सेट करें
- टेम्पलेट फ़ाइल का पथ सेट करें
- पार्स रिक्वेस्ट बनाएं
- ParseApi.parse() विधि को कॉल करके परिणाम प्राप्त करें
निम्न कोड नमूना दिखाता है कि कैसे एक पीडीएफ दस्तावेज़ को पार्स करना है और एक रेस्ट एपीआई का उपयोग करके JSON फ़ाइल में दिए गए टेम्पलेट के अनुसार डेटा निकालना है। फ़ाइलों को अपलोड करने के लिए कृपया पहले बताए गए चरणों का पालन करें।
# एपीआई आरंभीकरण
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# पार्स विकल्पों को परिभाषित करें
options = groupdocs_parser_cloud.ParseOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "companies.pdf"
options.template_path = "template.json"
# पार्स अनुरोध
request = groupdocs_parser_cloud.ParseRequest(options)
result = parseApi.parse(request)
# परिणाम दिखाएं
for data in result.fields_data:
if data.page_area.page_text_area is not None:
print("Field name: " + data.name + ". Text :" + data.page_area.page_text_area.text)
if data.page_area.page_table_area is not None:
print("Table name: " + data.name)
for cell in data.page_area.page_table_area.page_table_area_cells:
print("Table cell. Row " + str(cell.row_index) + " column " + str(cell.column_index) + ". Text: " + cell.page_area.page_text_area.text);
कृपया JSON प्रारूप में टेम्पलेट के नीचे खोजें।
{
"Fields": [
{
"FieldName": "Address",
"FieldPosition": {
"FieldPositionType": "Regex",
"Regex": "Companyaddress:"
}
},
{
"FieldName": "CompanyAddress",
"FieldPosition": {
"FieldPositionType": "Linked",
"LinkedFieldName": "ADDRESS",
"IsRightLinked": true,
"SearchArea": {
"Height": 10.0,
"Width": 100.0
},
"AutoScale": true
}
},
{
"FieldName": "Company",
"FieldPosition": {
"FieldPositionType": "Regex",
"Regex": "Companyname:"
}
},
{
"FieldName": "CompanyName",
"FieldPosition": {
"FieldPositionType": "Linked",
"LinkedFieldName": "Company",
"IsRightLinked": true,
"SearchArea": {
"Height": 10.0,
"Width": 100.0
},
"AutoScale": true
}
}
],
"Tables": [
{
"TableName": "Companies",
"DetectorParameters": {
"Rectangle": {
"Position": {
"X": 77.0,
"Y": 279.0
},
"Size": {
"Height": 41.0,
"Width": 480.0
}
}
}
}
]
}
पीडीएफ फाइल को ऑनलाइन एक्सट्रेक्ट करें
पीडीएफ एक्सट्रैक्टर का ऑनलाइन फ्री में उपयोग कैसे करें? कृपया निम्नलिखित मुफ्त ऑनलाइन पीडीएफ पार्सिंग टूल और मुफ्त पीडीएफ पेज एक्सट्रैक्टर का प्रयास करें। यह ऑनलाइन पीडीएफ एक्सट्रैक्टर और एक्सट्रेक्ट पीडीएफ ऑनलाइन फ्री टूल उपरोक्त एपीआई का उपयोग करके विकसित किया गया है। https://products.groupdocs.app/parser/pdf
निष्कर्ष
इस लेख में, आपने सीखा है कि क्लाउड पर दिए गए टेम्पलेट के अनुसार PDF दस्तावेज़ों से विशिष्ट डेटा कैसे निकाला जाता है। आपने यह भी सीखा कि टेम्प्लेट ऑब्जेक्ट कैसे बनाया जाता है और JSON फॉर्मेट में टेम्प्लेट प्रदान किया जाता है। इस लेख में यह भी बताया गया है कि पीडीएफ डेटा निष्कर्षण ऑनलाइन के लिए क्लाउड पर पीडीएफ फाइल को प्रोग्रामेटिक रूप से कैसे अपलोड किया जाए। दस्तावेज़ का उपयोग करके आप GroupDocs.Parser Cloud API के बारे में अधिक जान सकते हैं। हम एक एपीआई संदर्भ अनुभाग भी प्रदान करते हैं जो आपको सीधे ब्राउज़र के माध्यम से हमारे एपीआई को देखने और बातचीत करने देता है।
प्रश्न पूछें
यदि आपके पास पीडीएफ और पीडीएफ डेटा निष्कर्षण ऑनलाइन से डेटा निकालने के बारे में कोई प्रश्न हैं, तो कृपया बेझिझक हमसे फ्री सपोर्ट फोरम पर पूछें।