
XML(eXtensible Markup Language) یک فرمت داده محبوب برای ذخیرهسازی و تبادل اطلاعات ساختاریافته است. این فرمت در زمینههای مختلفی از جمله توسعه وب، ذخیرهسازی دادهها و انتقال دادهها بهطور گسترده استفاده میشود. استخراج متن از فایلهای XML به دلایل زیادی بسیار مهم است. این کار به ما امکان دسترسی و دستکاری دادههای واقعی موجود در اسناد XML را میدهد. با استخراج متن، میتوانیم عملیات مختلفی مانند تحلیل دادهها، تبدیل دادهها و ادغام دادهها را انجام دهیم. در این مقاله، به بررسی چگونگی استخراج متن از XML در پایتون با استفاده از REST API خواهیم پرداخت.
موضوعات زیر در این مقاله پوشش داده خواهد شد:
- پیادهسازی API REST پایتون برای تجزیه سند XML و نصب SDK
- Extract All Text from XML File in Python using REST API
Python REST API برای تجزیه سند XML و نصب SDK
GroupDocs.Parser Cloud SDK for Python یک ابزار قدرتمند است که استخراج متن از XML و سایر فرمتهای فایل را ساده میکند. این ابزار مجموعهای وسیع از قابلیتها را ارائه میدهد، از جمله تجزیه اسناد، استخراج متن، استخراج متا دیتا و بسیاری دیگر. با API شهودی آن، توسعهدهندگان میتوانند به راحتی قابلیتهای استخراج متن را در برنامههای Python خود ادغام کنند. همچنین از C# .NET، Java، PHP، Ruby و Node.js SDKs به عنوان اعضای خانواده تجزیهکننده اسناد برای Cloud API پشتیبانی میکند. SDK میتواند در یک برنامه مبتنی بر Python ادغام شود تا روند توسعه شما را سادهتر کرده و بهرهوری را افزایش دهد.
GroupDocs.Parser Cloud را به پروژه Python خود با pip (package installer for Python) با استفاده از دستور زیر در کنسول نصب کنید تا اطلاعات را از XML استخراج کنید:
pip install groupdocs_parser_cloud
حال، لطفاً شناسه مشتری و رمز محرمانه مشتری خود را از dashboard دریافت کرده و کد را به صورت زیر اضافه کنید:
# Import groupdocs parser SDK
import groupdocs_parser_cloud
# Get appsid & appkey from https://dashboard.groupdocs.cloud after free registration.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# تنظیمات API دریافت فایل.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
تمام متن را از فایل XML در پایتون با استفاده از API REST استخراج کنید
برای استخراج متن از اسناد XML در پایتون با استفاده از GroupDocs.Parser Cloud SDK برای پایتون، مراحل زیر را دنبال کنید:
- بارگذاری فایل XML را به ابری منتقل کنید
- Extract تمام متن را از XML با استفاده از پایتون استخراج کنید.
فایل را بارگذاری کنید
ابتدا، سند XML را با استفاده از کد نمونه زیر به Cloud آپلود کنید:
# یک نمونه از API فایل را ایجاد کنید
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# درخواست بارگذاری فایل را فراخوانی کن
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# بارگذاری فایل در ابر
response = file_api.upload_file(request)
print(response.uploaded)
در نتیجه، فایل XML بارگذاری شده در بخش [files section][https://dashboard.groupdocs.cloud/files] از داشبورد شما در فضای ابری در دسترس خواهد بود.
Extract all Text from XML data using Python
در این بخش، مراحل و یک نمونه کد را خواهیم نوشت که نحوه استخراج متن از یک سند XML در پایتون با استفاده از GroupDocs.Parser Cloud SDK برای پایتون را نشان میدهد:
- ابتدا یک نمونه از کلاس ParseApi را ایجاد کنید.
- ثانیاً، یک نمونه از کلاس TextOptions() ایجاد کنید.
- سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
- و آن را به روش fileInfo گزینه های متنی اختصاص دهید.
- در مرحله بعد، مسیر فایل XML را به عنوان ورودی مشخص کنید.
- اکنون یک نمونه از کلاس TextRequest() ایجاد کنید و پارامتر TextOptions را منتقل کنید.
- در نهایت، نتایج را با فراخوانی متد ParseApi.text() و ارسال پارامتر TextRequest دریافت کنید.
نمونه کد زیر نشان میدهد که چگونه میتوان متن را از یک سند XML در پایتون با استفاده از REST API استخراج کرد:
# چگونه متن را از XML در پایتون با استفاده از REST API استخراج کنیم
try:
# ایجاد و راهاندازی api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# تعریف گزینههای متنی
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
شما میتوانید خروجی را در تصویر زیر مشاهده کنید:

تمام متن را از دادههای XML با استفاده از پایتون استخراج کنید.
مبدل سند آنلاین رایگان
چگونه میتوان متن را به صورت آنلاین و رایگان از XML استخراج کرد؟ لطفاً از یک online XML parser software برای استخراج دادهها از فایلهای XML استفاده کنید. این ابزار XML Parser با استفاده از کتابخانه parser پایتون که در بالا ذکر شد، توسعه یافته است.
نتیجه گیری
در نتیجه، استخراج متن از فایلهای XML یک وظیفه بنیادی هنگام کار با دادههای XML است. پایتون، در کنار GroupDocs.Parser Cloud SDK، یک راهحل قابل اطمینان و کارآمد برای استخراج متن از فایلهای XML ارائه میدهد. موارد زیر آنچه شما از این مقاله آموختهاید:
- چگونه میتوان تمام متن را از اسناد XML در پایتون با استفاده از REST API استخراج کرد.
- با استفاده از پایتون بهصورت برنامهنویسی یک فایل XML را به Cloud بارگذاری کنید.
- نرمافزار استخراج دادههای آنلاین XML برای تجزیه اسناد XML.
علاوه بر این، میتوانید بیشتر درباره GroupDocs.Parser Cloud API با استفاده از documentation یاد بگیرید. ما همچنین یک بخش API Reference ارائه میدهیم که به شما امکان میدهد به طور مستقیم از طریق مرورگر، API های ما را تجسم و تعامل کنید. کد منبع کامل SDK پایتون بهصورت رایگان در Github در دسترس است.
سرانجام، ما به نوشتن مقالات جدید وبلاگ درباره فرمتهای مختلف فایل و تجزیه آنها با استفاده از REST API ادامه میدهیم. بنابراین، لطفاً برای دریافت آخرین بهروزرسانیها با ما در تماس باشید.
سوالی بپرسید
در صورت داشتن هرگونه سؤال یا ابهام در مورد تجزیهکننده سند XML، لطفاً با ما از طریق forum تماس بگیرید.
سوالات متداول
چرا ما به استخراج متن از فایلهای XML نیاز داریم؟
استخراج متن از فایل های XML به ما اجازه می دهد به داده های واقعی موجود در اسناد XML دسترسی پیدا کنیم و آنها را دستکاری کنیم.
How can I extract text from XML files using Python?
شما میتوانید متن را از فایلهای XML با استفاده از GroupDocs.Parser Cloud SDK for Python استخراج کنید، که قابلیتهای قدرتمند استخراج متن را ارائه میدهد.
آیا استخراج متادیتا از فایلهای XML با استفاده از GroupDocs.Parser Cloud SDK برای پایتون امکانپذیر است؟
بله، GroupDocs.Parser Cloud SDK for Python از استخراج متاداده از فایلهای XML پشتیبانی میکند. شما میتوانید اطلاعات متادادهای مانند نویسنده، تاریخ ایجاد، تاریخ اصلاح و بیشتر را بازیابی کنید.
Can I extract images embedded in XML files using GroupDocs.Parser Cloud SDK for Python?
بله، GroupDocs.Parser Cloud SDK for Python به شما اجازه میدهد تا تصاویر گنجانده شده در فایلهای XML را استخراج کرده و آنها را به فرمتهای مختلف تبدیل کنید.
همچنین ببینید
در اینجا برخی از مقالات مرتبط وجود دارد که ممکن است برای شما مفید باشد:
- تجزیه مستندات – استخراج متن از فایل PDF در جاوا
- از API REST برای استخراج داده از PDF در Node.js استفاده کنید.
- اسناد ورد را با استفاده از REST API در پایتون تجزیه کنید.
- از فایلهای PDF تصاویر استخراج کنید با استفاده از پایتون
- چگونه متن را از PDF با استفاده از پایتون استخراج کنیم
- از PDF دادههای خاصی را با استفاده از پایتون استخراج کنید
- جاوا DOM Parser - استخراج متن از اسناد XML با استفاده از جاوا