استخراج متن از XML در پایتون با استفاده از REST API.

XML(EXtensible Markup Language) یک فرمت داده محبوب برای ذخیره و تبادل اطلاعات ساختاریافته است. به طور گسترده ای در حوزه های مختلف از جمله توسعه وب، ذخیره سازی داده ها و انتقال داده ها استفاده می شود. استخراج متن از فایل های XML به دلایل زیادی بسیار مهم است. این به ما امکان می دهد به داده های واقعی موجود در اسناد XML دسترسی داشته باشیم و آنها را دستکاری کنیم. با استخراج متن می توانیم عملیات مختلفی مانند تجزیه و تحلیل داده ها، تبدیل داده ها و یکپارچه سازی داده ها را انجام دهیم. در این مقاله، نحوه استخراج متن از XML در پایتون با استفاده از REST API را بررسی خواهیم کرد.

موضوعات زیر در این مقاله پوشش داده خواهد شد:

Python REST API برای تجزیه سند XML و نصب SDK

GroupDocs.Parser Cloud SDK for Python ابزار قدرتمندی است که استخراج متن از XML و سایر فرمت‌های فایل را ساده می‌کند. طیف گسترده ای از ویژگی ها، از جمله تجزیه اسناد، استخراج متن، استخراج ابرداده، و بسیاری دیگر را فراهم می کند. با API بصری آن، توسعه دهندگان می توانند به راحتی قابلیت های استخراج متن را در برنامه های پایتون خود ادغام کنند. همچنین از C#.NET، Java، PHP، Ruby و Node.js SDK به عنوان [اعضای خانواده تجزیه کننده سند4 برای Cloud API پشتیبانی می کند. SDK را می توان در یک برنامه کاربردی مبتنی بر پایتون ادغام کرد تا فرآیند توسعه شما را ساده کرده و بهره وری را افزایش دهد.

با استفاده از دستور زیر در کنسول برای استخراج اطلاعات از XML، GroupDocs.Parser Cloud را در پروژه پایتون خود با پیپ (package installer for Python) نصب کنید:

pip install groupdocs_parser_cloud

اکنون، لطفاً شناسه مشتری و راز مشتری خود را از داشبورد دریافت کنید و کد را مطابق شکل زیر اضافه کنید:

# وارد کردن SDK تجزیه کننده groupdocs
import groupdocs_parser_cloud

# پس از ثبت نام رایگان، app_sid و app_key را از https://dashboard.groupdocs.cloud دریافت کنید.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# پیکربندی های File API را دریافت کنید.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

استخراج تمام متن از فایل XML در پایتون با استفاده از REST API

برای استخراج متن از اسناد XML در پایتون با استفاده از GroupDocs.Parser Cloud SDK برای Python، این مراحل را دنبال کنید:

  • آپلود فایل XML در ابر
  • Extract تمام متن از XML با استفاده از Python

آپلود فایل

ابتدا سند XML را با استفاده از مثال کد زیر در ابر آپلود کنید:

# یک نمونه از API فایل ایجاد کنید
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# تماس درخواست آپلود فایل
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# فایل را در فضای ابری آپلود کنید
response = file_api.upload_file(request)
print(response.uploaded)

در نتیجه، فایل XML آپلود شده در بخش فایل ها داشبورد شما در فضای ابری در دسترس خواهد بود.

استخراج تمام متن از داده‌های XML با استفاده از Python

در این بخش، ما مراحل و یک نمونه کد کد را می نویسیم که نحوه استخراج متن از یک سند XML در پایتون را با استفاده از GroupDocs.Parser Cloud SDK برای Python نشان می دهد:

  • ابتدا یک نمونه از کلاس ParseApi ایجاد کنید.
  • در مرحله دوم، یک نمونه از کلاس TextOptions() ایجاد کنید.
  • سوم، یک نمونه از کلاس FileInfo ایجاد کنید.
  • و آن را به روش text options fileInfo اختصاص دهید.
  • سپس مسیر فایل XML را به عنوان ورودی تنظیم کنید.
  • اکنون یک نمونه از کلاس TextRequest() بسازید و پارامتر TextOptions را پاس کنید.
  • در نهایت، با فراخوانی متد ParseApi.text() و ارسال پارامتر TextRequest به نتیجه برسید.

نمونه کد زیر نحوه استخراج متن از یک سند XML در پایتون را با استفاده از REST API نشان می دهد:

# نحوه استخراج متن از XML در پایتون با استفاده از REST API
try:
  # مقداردهی اولیه api
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # گزینه های متن را تعریف کنید
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

خروجی را در تصویر زیر مشاهده می کنید:

استخراج متن از فایل XML توسط پایتون

تمام متن را از داده های XML با استفاده از پایتون استخراج کنید.

تجزیه کننده اسناد آنلاین رایگان

چگونه متن را از XML به صورت رایگان استخراج کنیم؟ لطفاً یک نرم‌افزار تجزیه‌کننده آنلاین XML را برای استخراج داده‌ها از فایل‌های XML امتحان کنید. این ابزار تجزیه‌کننده XML با استفاده از کتابخانه تجزیه‌کننده پایتون فوق‌الذکر توسعه یافته است.

نتیجه

در نتیجه، استخراج متن از فایل های XML یک کار اساسی در هنگام کار با داده های XML است. پایتون، همراه با GroupDocs.Parser Cloud SDK، یک راه حل قابل اعتماد و کارآمد برای استخراج متن از فایل های XML ارائه می دهد. آنچه از این مقاله آموخته اید به شرح زیر است:

  • نحوه استخراج تمام متن از اسناد XML در پایتون با استفاده از REST API.
  • به صورت برنامه نویسی یک فایل XML را با استفاده از پایتون در فضای ابری آپلود کنید.
  • و نرم افزار استخراج داده های XML آنلاین برای تجزیه اسناد XML.

علاوه بر این، می‌توانید با استفاده از مستندات درباره GroupDocs.Parser Cloud API اطلاعات بیشتری کسب کنید. ما همچنین یک بخش API Reference ارائه می‌کنیم که به شما امکان می‌دهد APIهای ما را مستقیماً از طریق مرورگر تجسم کرده و با آن‌ها تعامل داشته باشید. کد منبع کامل Python SDK به صورت رایگان در Github در دسترس است.

در نهایت، ما به نوشتن مقالات وبلاگ جدید در قالب‌های فایل مختلف و تجزیه با استفاده از REST API ادامه می‌دهیم. بنابراین، لطفا برای آخرین به روز رسانی تماس بگیرید.

یه سوال بپرس

در صورتی که در مورد تجزیه کننده اسناد XML سؤال یا ابهامی دارید، لطفاً از طریق [فروم 17 ما با ما تماس بگیرید.

سوالات متداول

چرا باید متن را از فایل های XML استخراج کنیم؟

استخراج متن از فایل‌های XML به ما امکان می‌دهد به داده‌های واقعی موجود در اسناد XML دسترسی داشته باشیم و آن‌ها را دستکاری کنیم.

چگونه می توانم متن را از فایل های XML با استفاده از پایتون استخراج کنم؟

می توانید متن را از فایل های XML با استفاده از GroupDocs.Parser Cloud SDK for Python استخراج کنید، که قابلیت استخراج متن قدرتمندی را ارائه می دهد.

آیا امکان استخراج ابرداده از فایل های XML با استفاده از GroupDocs.Parser Cloud SDK برای پایتون وجود دارد؟

بله، GroupDocs.Parser Cloud SDK for Python از استخراج ابرداده از فایل‌های XML پشتیبانی می‌کند. می توانید اطلاعات فراداده مانند نویسنده، تاریخ ایجاد، تاریخ اصلاح و موارد دیگر را بازیابی کنید.

آیا می توانم تصاویر جاسازی شده در فایل های XML را با استفاده از GroupDocs.Parser Cloud SDK برای پایتون استخراج کنم؟

بله، GroupDocs.Parser Cloud SDK for Python به شما امکان می دهد تصاویر جاسازی شده در فایل های XML را استخراج کرده و آنها را به فرمت های مختلف تبدیل کنید.

همچنین ببینید

در اینجا چند مقاله مرتبط وجود دارد که ممکن است برای شما مفید باشد: