XML(EXtensible Markup Language) یک فرمت داده محبوب برای ذخیره و تبادل اطلاعات ساختاریافته است. به طور گسترده ای در حوزه های مختلف از جمله توسعه وب، ذخیره سازی داده ها و انتقال داده ها استفاده می شود. استخراج متن از فایل های XML به دلایل زیادی بسیار مهم است. این به ما امکان می دهد به داده های واقعی موجود در اسناد XML دسترسی داشته باشیم و آنها را دستکاری کنیم. با استخراج متن می توانیم عملیات مختلفی مانند تجزیه و تحلیل داده ها، تبدیل داده ها و یکپارچه سازی داده ها را انجام دهیم. در این مقاله، نحوه استخراج متن از XML در پایتون با استفاده از REST API را بررسی خواهیم کرد.
موضوعات زیر در این مقاله پوشش داده خواهد شد:
- Python REST API برای تجزیه سند XML و نصب SDK
- استخراج تمام متن از فایل XML در پایتون با استفاده از REST API
Python REST API برای تجزیه سند XML و نصب SDK
GroupDocs.Parser Cloud SDK for Python ابزار قدرتمندی است که استخراج متن از XML و سایر فرمتهای فایل را ساده میکند. طیف گسترده ای از ویژگی ها، از جمله تجزیه اسناد، استخراج متن، استخراج ابرداده، و بسیاری دیگر را فراهم می کند. با API بصری آن، توسعه دهندگان می توانند به راحتی قابلیت های استخراج متن را در برنامه های پایتون خود ادغام کنند. همچنین از C#.NET، Java، PHP، Ruby و Node.js SDK به عنوان [اعضای خانواده تجزیه کننده سند4 برای Cloud API پشتیبانی می کند. SDK را می توان در یک برنامه کاربردی مبتنی بر پایتون ادغام کرد تا فرآیند توسعه شما را ساده کرده و بهره وری را افزایش دهد.
با استفاده از دستور زیر در کنسول برای استخراج اطلاعات از XML، GroupDocs.Parser Cloud را در پروژه پایتون خود با پیپ (package installer for Python) نصب کنید:
pip install groupdocs_parser_cloud
اکنون، لطفاً شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید و کد را مطابق شکل زیر اضافه کنید:
# وارد کردن SDK تجزیه کننده groupdocs
import groupdocs_parser_cloud
# پس از ثبت نام رایگان، app_sid و app_key را از https://dashboard.groupdocs.cloud دریافت کنید.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# پیکربندی های File API را دریافت کنید.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
استخراج تمام متن از فایل XML در پایتون با استفاده از REST API
برای استخراج متن از اسناد XML در پایتون با استفاده از GroupDocs.Parser Cloud SDK برای Python، این مراحل را دنبال کنید:
آپلود فایل
ابتدا سند XML را با استفاده از مثال کد زیر در ابر آپلود کنید:
# یک نمونه از API فایل ایجاد کنید
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# تماس درخواست آپلود فایل
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# فایل را در فضای ابری آپلود کنید
response = file_api.upload_file(request)
print(response.uploaded)
در نتیجه، فایل XML آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.
استخراج تمام متن از دادههای XML با استفاده از Python
در این بخش، ما مراحل و یک نمونه کد کد را می نویسیم که نحوه استخراج متن از یک سند XML در پایتون را با استفاده از GroupDocs.Parser Cloud SDK برای Python نشان می دهد:
- ابتدا یک نمونه از کلاس ParseApi ایجاد کنید.
- در مرحله دوم، یک نمونه از کلاس TextOptions() ایجاد کنید.
- سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
- و آن را به روش text options fileInfo اختصاص دهید.
- سپس مسیر فایل XML را به عنوان ورودی تنظیم کنید.
- اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
- در نهایت، با فراخوانی متد ParseApi.text() و ارسال پارامتر TextRequest به نتیجه برسید.
نمونه کد زیر نحوه استخراج متن از یک سند XML در پایتون را با استفاده از REST API نشان می دهد:
# نحوه استخراج متن از XML در پایتون با استفاده از REST API
try:
# مقداردهی اولیه api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# گزینه های متن را تعریف کنید
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
خروجی را در تصویر زیر مشاهده می کنید:
تجزیه کننده اسناد آنلاین رایگان
چگونه متن را از XML به صورت رایگان استخراج کنیم؟ لطفاً یک نرمافزار تجزیهکننده آنلاین XML را برای استخراج دادهها از فایلهای XML امتحان کنید. این ابزار تجزیهکننده XML با استفاده از کتابخانه تجزیهکننده پایتون فوقالذکر توسعه یافته است.
نتیجه
در نتیجه، استخراج متن از فایل های XML یک کار اساسی در هنگام کار با داده های XML است. پایتون، همراه با GroupDocs.Parser Cloud SDK، یک راه حل قابل اعتماد و کارآمد برای استخراج متن از فایل های XML ارائه می دهد. آنچه از این مقاله آموخته اید به شرح زیر است:
- نحوه استخراج تمام متن از اسناد XML در پایتون با استفاده از REST API.
- به صورت برنامه نویسی یک فایل XML را با استفاده از پایتون در فضای ابری آپلود کنید.
- و نرم افزار استخراج داده های XML آنلاین برای تجزیه اسناد XML.
علاوه بر این، میتوانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه میکنیم که به شما امکان میدهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آنها تعامل داشته باشید. کد منبع کامل Python SDK به صورت رایگان در Github در دسترس است.
در نهایت، ما به نوشتن مقالات وبلاگ جدید در قالبهای فایل مختلف و تجزیه با استفاده از REST API ادامه میدهیم. بنابراین، لطفا برای آخرین به روز رسانی تماس بگیرید.
یه سوال بپرس
در صورتی که در مورد تجزیه کننده اسناد XML سؤال یا ابهامی دارید، لطفاً از طریق [فروم 17 ما با ما تماس بگیرید.
سوالات متداول
چرا باید متن را از فایل های XML استخراج کنیم؟
استخراج متن از فایلهای XML به ما امکان میدهد به دادههای واقعی موجود در اسناد XML دسترسی داشته باشیم و آنها را دستکاری کنیم.
چگونه می توانم متن را از فایل های XML با استفاده از پایتون استخراج کنم؟
می توانید متن را از فایل های XML با استفاده از GroupDocs.Parser Cloud SDK for Python استخراج کنید، که قابلیت استخراج متن قدرتمندی را ارائه می دهد.
آیا امکان استخراج ابرداده از فایل های XML با استفاده از GroupDocs.Parser Cloud SDK برای پایتون وجود دارد؟
بله، GroupDocs.Parser Cloud SDK for Python از استخراج ابرداده از فایلهای XML پشتیبانی میکند. می توانید اطلاعات فراداده مانند نویسنده، تاریخ ایجاد، تاریخ اصلاح و موارد دیگر را بازیابی کنید.
آیا می توانم تصاویر جاسازی شده در فایل های XML را با استفاده از GroupDocs.Parser Cloud SDK برای پایتون استخراج کنم؟
بله، GroupDocs.Parser Cloud SDK for Python به شما امکان می دهد تصاویر جاسازی شده در فایل های XML را استخراج کرده و آنها را به فرمت های مختلف تبدیل کنید.
همچنین ببینید
در اینجا چند مقاله مرتبط وجود دارد که ممکن است برای شما مفید باشد:
- تجزیه سند - استخراج متن از فایل PDF در جاوا
- استخراج داده ها از PDF با استفاده از REST API در Node.js
- تجزیه و تحلیل اسناد Word با استفاده از REST API در پایتون
- استخراج تصاویر از اسناد PDF با استفاده از پایتون
- نحوه استخراج متن از PDF با استفاده از پایتون
- استخراج داده های خاص از PDF با استفاده از پایتون
- تجزیه کننده جاوا DOM - استخراج متن از اسناد XML با استفاده از جاوا