XML(eXtensible Markup Language) — популярний формат даних для зберігання й обміну структурованою інформацією. Він широко використовується в різних областях, включаючи веб-розробку, зберігання та передачу даних. Вилучення тексту з XML-файлів має вирішальне значення з багатьох причин. Це дозволяє нам отримувати доступ і маніпулювати фактичними даними, що містяться в документах XML. Витягуючи текст, ми можемо виконувати різні операції, такі як аналіз даних, перетворення даних та інтеграція даних. У цій статті ми розглянемо, як отримати текст із XML у Python за допомогою REST API.
У цій статті будуть розглянуті такі теми:
- Python REST API для аналізу XML-документа та встановлення SDK
- Видобути весь текст із файлу XML у Python за допомогою REST API
Python REST API для аналізу XML-документа та встановлення SDK
GroupDocs.Parser Cloud SDK для Python — це потужний інструмент, який спрощує вилучення тексту з файлів XML та інших форматів. Він надає широкий спектр функцій, включаючи розбір документів, вилучення тексту, вилучення метаданих і багато іншого. Завдяки інтуїтивно зрозумілому API розробники можуть легко інтегрувати можливості вилучення тексту у свої програми Python. Він також підтримує пакети SDK C# .NET, Java, PHP, Ruby та Node.js як члени сімейства аналізаторів документів для Cloud API. SDK можна інтегрувати в програму на основі Python, щоб спростити процес розробки та підвищити продуктивність.
Установіть GroupDocs.Parser Cloud у свій проект Python за допомогою pip (інсталятор пакетів для Python), використовуючи таку команду в консолі, щоб отримати інформацію з XML:
pip install groupdocs_parser_cloud
Тепер, будь ласка, отримайте свій ідентифікатор клієнта та секрет клієнта з інформаційної панелі та додайте код, як показано нижче:
# Імпорт SDK парсера groupdocs
import groupdocs_parser_cloud
# Отримайте app_sid і app_key з https://dashboard.groupdocs.cloud після безкоштовної реєстрації.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Отримайте конфігурації File API.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
Видобути весь текст із файлу XML у Python за допомогою REST API
Щоб отримати текст із документів XML у Python за допомогою GroupDocs.Parser Cloud SDK для Python, виконайте такі дії:
- Завантажте файл XML у хмару
- Витягніть увесь текст із XML за допомогою Python
Завантажте файл
По-перше, завантажте XML-документ у хмару, використовуючи наведений нижче приклад коду:
# Створіть екземпляр файлу API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Виклик запиту на завантаження файлу
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# Завантажте файл у хмару
response = file_api.upload_file(request)
print(response.uploaded)
У результаті завантажений XML-файл буде доступний у розділі файлів вашої інформаційної панелі в хмарі.
Витягніть увесь текст із даних XML за допомогою Python
У цьому розділі ми напишемо кроки та приклад фрагмента коду, який демонструє, як витягти текст із документа XML у Python за допомогою GroupDocs.Parser Cloud SDK для Python:
- По-перше, створіть екземпляр класу ParseApi.
- По-друге, створіть екземпляр класу TextOptions().
- По-третє, створіть екземпляр класу FileInfo.
- І призначте його текстовим параметрам методу fileInfo.
- Далі встановіть шлях до файлу XML як вхідні дані.
- Тепер створіть екземпляр класу TextRequest() і передайте параметр TextOptions.
- Нарешті, отримуйте результати, викликавши метод ParseApi.text() і передавши параметр TextRequest.
У наведеному нижче прикладі коду показано, як отримати текст із XML-документа в Python за допомогою REST API:
# Як витягнути текст із XML у Python за допомогою REST API
try:
# ініціалізація API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# визначити параметри тексту
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
Ви можете побачити результат на зображенні нижче:
Безкоштовний аналізатор документів онлайн
Як отримати текст із XML безкоштовно онлайн? Будь ласка, спробуйте онлайн-програмне забезпечення аналізатора XML, щоб отримати дані з файлів XML. Цей інструмент аналізатора XML розроблено з використанням згаданої вище бібліотеки аналізатора Python.
Висновок
Підсумовуючи, вилучення тексту з файлів XML є фундаментальним завданням під час роботи з даними XML. Python у поєднанні з GroupDocs.Parser Cloud SDK забезпечує надійне та ефективне рішення для вилучення тексту з файлів XML. Ось що ви дізналися з цієї статті:
- як витягти весь текст із XML-документів у Python за допомогою REST API;
- програмно завантажити XML-файл у хмару за допомогою Python;
- і онлайн-програмне забезпечення для вилучення XML-даних для аналізу XML-документів.
Крім того, ви можете дізнатися більше про GroupDocs.Parser Cloud API за допомогою документації. Ми також надаємо розділ API Reference, який дозволяє візуалізувати наші API та взаємодіяти з ними безпосередньо через браузер. Повний вихідний код Python SDK є у вільному доступі на Github.
Нарешті, ми продовжуємо писати нові статті в блозі про різні формати файлів і аналіз за допомогою REST API. Тому, будь ласка, зв’яжіться з нами, щоб отримати останні оновлення.
Задайте питання
Якщо у вас виникли запитання чи непорозуміння щодо аналізатора XML-документів, будь ласка, зв’яжіться з нами через наш форум.
поширені запитання
Чому нам потрібно витягувати текст із файлів XML?
Вилучення тексту з XML-файлів дозволяє нам отримувати доступ і маніпулювати фактичними даними, що містяться в XML-документах.
Як я можу витягти текст із файлів XML за допомогою Python?
Ви можете видобувати текст із XML-файлів за допомогою GroupDocs.Parser Cloud SDK for Python, який надає потужні можливості вилучення тексту.
Чи можна отримати метадані з XML-файлів за допомогою GroupDocs.Parser Cloud SDK для Python?
Так, GroupDocs.Parser Cloud SDK for Python підтримує вилучення метаданих із файлів XML. Ви можете отримати такі метадані, як автор, дата створення, дата зміни тощо.
Чи можна видобувати зображення, вбудовані у файли XML, за допомогою GroupDocs.Parser Cloud SDK для Python?
Так, GroupDocs.Parser Cloud SDK for Python дозволяє видобувати зображення, вбудовані у файли XML, і конвертувати їх у різні формати.
Дивись також
Ось деякі пов’язані статті, які можуть бути вам корисними:
- Синтаксичний аналіз документа – вилучення тексту з PDF-файлу в Java
- Видобувайте дані з PDF за допомогою REST API у Node.js
- Аналізуйте документи Word за допомогою REST API у Python
- Видобувайте зображення з PDF-документів за допомогою Python
- Як витягти текст із PDF за допомогою Python
- Витягніть певні дані з PDF за допомогою Python
- Java DOM Parser - видобуток тексту з XML-документів за допомогою Java