Extraire du texte à partir de XML en Python en utilisant REST API.

XML(eXtensible Markup Language) est un format de données populaire pour stocker et échanger des informations structurées. Il est largement utilisé dans divers domaines, y compris le développement web, le stockage de données et le transfert de données. L’extraction de texte à partir de fichiers XML est cruciale pour de nombreuses raisons. Cela nous permet d’accéder et de manipuler les données réelles contenues dans les documents XML. En extrayant le texte, nous pouvons effectuer différentes opérations, telles que l’analyse de données, la transformation de données et l’intégration de données. Dans cet article, nous allons explorer comment extraire du texte à partir de XML en Python en utilisant l’API REST.

Les sujets suivants seront abordés dans cet article :

Python REST API to Parse XML Document and SDK Installation

GroupDocs.Parser Cloud SDK for Python est un outil puissant qui simplifie l’extraction de texte à partir de XML et d’autres formats de fichiers. Il offre une large gamme de fonctionnalités, y compris le parsing de documents, l’extraction de texte, l’extraction de métadonnées, et bien plus encore. Avec son API intuitive, les développeurs peuvent facilement intégrer des capacités d’extraction de texte dans leurs applications Python. Il prend également en charge C# .NET, Java, PHP, Ruby, et Node.js SDK en tant que document parser family members pour l’API Cloud. Le SDK peut être intégré dans une application basée sur Python pour simplifier votre processus de développement et améliorer la productivité.

Installez GroupDocs.Parser Cloud dans votre projet Python avec pip (package installer for Python) en utilisant la commande suivante dans la console pour extraire des informations à partir d’XML :

pip install groupdocs_parser_cloud

Maintenant, veuillez obtenir votre ID client et votre secret client à partir du dashboard et ajouter le code comme indiqué ci-dessous :

# Importez le SDK de GroupDocs Parser
import groupdocs_parser_cloud

# Obtenez appsid et appkey à partir de https://dashboard.groupdocs.cloud après une inscription gratuite.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obtenez les configurations de l'API de fichiers.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Extract All Text from XML File in Python using REST API

Pour extraire du texte des documents XML en Python en utilisant le GroupDocs.Parser Cloud SDK pour Python, suivez ces étapes :

  • Upload le fichier XML dans le cloud
  • Extraire tout le texte du XML en utilisant Python

Téléchargez le fichier

Tout d’abord, téléchargez le document XML dans le cloud en utilisant l’exemple de code ci-dessous :

# Créer une instance de l'API des fichiers
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Appel de la demande d'importation de fichier
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Téléchargez le fichier vers le cloud
response = file_api.upload_file(request)
print(response.uploaded)

En conséquence, le fichier XML téléchargé sera disponible dans la [files section][https://dashboard.groupdocs.cloud/files] de votre tableau de bord dans le cloud.

Extract all Text from XML data using Python

Dans cette section, nous écrirons les étapes et un extrait de code exemple qui démontre comment extraire du texte d’un document XML en Python en utilisant le SDK Cloud GroupDocs.Parser pour Python :

  • Tout d’abord, créez une instance de la ParseApi classe.
  • Ensuite, créez une instance de la classe TextOptions().
  • Troisièmement, créez une instance de la FileInfo classe.
  • Et, assignez-le à la méthode fileInfo des options de texte.
  • Ensuite, définissez le chemin d’accès au fichier XML comme entrée.
  • Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
  • Enfin, obtenez les résultats en appelant la ParseApi.text() méthode et en passant le paramètre TextRequest.

Le code suivant montre comment extraire du texte d’un document XML en Python en utilisant une API REST :

# Comment extraire du texte à partir de XML en Python en utilisant une API REST
try:
  # initialisation de l'API
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # define text options
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Vous pouvez voir le résultat dans l’image ci-dessous :

Python Extraire le texte d'un fichier XML

Extract all Text from XML data using Python.

Free Online Document Parser

Comment extraire du texte à partir de XML en ligne gratuitement ? Veuillez essayer un logiciel de parsing XML en ligne pour extraire des données à partir de fichiers XML. Cet outil de parsing XML est développé en utilisant la bibliothèque de parsing Python mentionnée ci-dessus.

Conclusion

En conclusion, l’extraction de texte à partir de fichiers XML est une tâche fondamentale lors du travail avec des données XML. Python, associé au GroupDocs.Parser Cloud SDK, offre une solution fiable et efficace pour extraire du texte des fichiers XML. Voici ce que vous avez appris de cet article :

  • How to extract all text from XML documents in Python using REST API.
  • Programmatically upload an XML file to the cloud using Python.
  • Logiciel d’extraction de données XML en ligne pour analyser des documents XML.

De plus, vous pouvez en savoir plus sur l’API Cloud GroupDocs.Parser en utilisant la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet du SDK Python est disponible gratuitement sur Github.

Enfin, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et le parsing utilisant l’API REST. Donc, n’hésitez pas à nous contacter pour les dernières mises à jour.

Ask a question

Dans le cas où vous auriez des questions ou des confusions concernant le parseur de document XML, n’hésitez pas à nous contacter via notre forum.

FAQs

Why do we need to extract text from XML files?

Extraire du texte des fichiers XML nous permet d’accéder et de manipuler les données réelles contenues dans les documents XML.

How can I extract text from XML files using Python?

Vous pouvez extraire du texte à partir de fichiers XML en utilisant GroupDocs.Parser Cloud SDK for Python, qui offre de puissantes capacités d’extraction de texte.

Is it possible to extract metadata from XML files using GroupDocs.Parser Cloud SDK for Python?

Oui, GroupDocs.Parser Cloud SDK for Python prend en charge l’extraction des métadonnées des fichiers XML. Vous pouvez récupérer des informations sur les métadonnées telles que l’auteur, la date de création, la date de modification, et plus encore.

Can I extract images embedded in XML files using GroupDocs.Parser Cloud SDK for Python?

Oui, GroupDocs.Parser Cloud SDK for Python vous permet d’extraire des images intégrées dans des fichiers XML et de les convertir en différents formats.

Voir aussi

Voici quelques articles connexes que vous pourriez trouver utiles :