Extrayez du texte à partir de XML en Python à l'aide de l'API REST.

XML(eXtensible Markup Language) est un format de données populaire pour stocker et échanger des informations structurées. Il est largement utilisé dans divers domaines, notamment le développement Web, le stockage de données et le transfert de données. L’extraction de texte à partir de fichiers XML est cruciale pour de nombreuses raisons. Il nous permet d’accéder et de manipuler les données réelles contenues dans les documents XML. En extrayant du texte, nous pouvons effectuer diverses opérations, telles que l’analyse de données, la transformation de données et l’intégration de données. Dans cet article, nous allons explorer comment extraire du texte de XML en Python à l’aide de l’API REST.

Les sujets suivants seront traités dans cet article :

API REST Python pour analyser le document XML et l’installation du SDK

GroupDocs.Parser Cloud SDK for Python est un outil puissant qui simplifie l’extraction de texte à partir de XML et d’autres formats de fichiers. Il offre un large éventail de fonctionnalités, notamment l’analyse de documents, l’extraction de texte, l’extraction de métadonnées, etc. Grâce à son API intuitive, les développeurs peuvent facilement intégrer des capacités d’extraction de texte dans leurs applications Python. Il prend également en charge les SDK C# .NET, Java, PHP, Ruby et Node.js en tant que membres de la famille d’analyseurs de documents pour l’API Cloud. Le SDK peut être intégré dans une application basée sur Python pour simplifier votre processus de développement et améliorer la productivité.

Installez GroupDocs.Parser Cloud sur votre projet Python avec pip (package installer for Python) à l’aide de la commande suivante dans la console pour extraire les informations du XML :

pip install groupdocs_parser_cloud

Maintenant, veuillez obtenir votre ID client et votre secret client à partir du tableau de bord et ajoutez le code comme indiqué ci-dessous :

# Importer le SDK de l'analyseur groupdocs
import groupdocs_parser_cloud

# Obtenez app_sid & app_key depuis https://dashboard.groupdocs.cloud après une inscription gratuite.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obtenez les configurations de l'API de fichier.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Extraire tout le texte d’un fichier XML en Python à l’aide de l’API REST

Pour extraire du texte de documents XML dans Python à l’aide du SDK GroupDocs.Parser Cloud pour Python, procédez comme suit :

Télécharger le fichier

Tout d’abord, chargez le document XML dans le cloud à l’aide de l’exemple de code ci-dessous :

# Créer une instance de l'API de fichier
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Appeler la demande de téléchargement de fichier
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Téléchargez le fichier dans le cloud
response = file_api.upload_file(request)
print(response.uploaded)

Par conséquent, le fichier XML téléchargé sera disponible dans la section des fichiers de votre tableau de bord sur le cloud.

Extraire tout le texte des données XML à l’aide de Python

Dans cette section, nous allons écrire les étapes et un exemple d’extrait de code qui montre comment extraire du texte d’un document XML en Python à l’aide du SDK GroupDocs.Parser Cloud pour Python :

  • Tout d’abord, créez une instance de la classe ParseApi.
  • Deuxièmement, créez une instance de la classe TextOptions().
  • Troisièmement, créez une instance de la classe FileInfo.
  • Et, affectez-le à la méthode fileInfo des options de texte.
  • Ensuite, définissez le chemin d’accès au fichier XML en tant qu’entrée.
  • Maintenant, créez une instance de la classe TextRequest() et passez le paramètre TextOptions.
  • Enfin, obtenez des résultats en appelant la méthode ParseApi.text() et en transmettant le paramètre TextRequest.

L’exemple de code suivant montre comment extraire du texte d’un document XML en Python à l’aide de l’API REST :

# Comment extraire du texte de XML en Python à l'aide de l'API REST
try:
  # initialisation de l'API
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # définir les options de texte
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Vous pouvez voir la sortie dans l’image ci-dessous :

Python Extraire le texte d'un fichier XML

Extrayez tout le texte des données XML à l’aide de Python.

Analyseur de documents en ligne gratuit

Comment extraire du texte de XML en ligne gratuitement ? Veuillez essayer un logiciel d’analyse XML en ligne pour extraire les données des fichiers XML. Cet outil d’analyseur XML est développé à l’aide de la bibliothèque d’analyseur Python mentionnée ci-dessus.

Conclusion

En conclusion, l’extraction de texte à partir de fichiers XML est une tâche fondamentale lorsque l’on travaille avec des données XML. Python, associé au SDK Cloud GroupDocs.Parser, fournit une solution fiable et efficace pour extraire du texte à partir de fichiers XML. Voici ce que vous avez appris de cet article :

  • comment extraire tout le texte des documents XML en Python à l’aide de l’API REST ;
  • télécharger par programmation un fichier XML dans le cloud à l’aide de Python ;
  • et un logiciel d’extraction de données XML en ligne pour analyser les documents XML.

En outre, vous pouvez en savoir plus sur l’API GroupDocs.Parser Cloud à l’aide de la documentation. Nous fournissons également une section API Reference qui vous permet de visualiser et d’interagir avec nos API directement via le navigateur. Le code source complet de Python SDK est disponible gratuitement sur Github.

Enfin, nous continuons à écrire de nouveaux articles de blog sur différents formats de fichiers et à analyser à l’aide de l’API REST. Alors, s’il vous plaît contactez-nous pour les dernières mises à jour.

poser une question

En cas de questions ou de confusion concernant l’analyseur de documents XML, n’hésitez pas à nous contacter via notre forum.

FAQ

Pourquoi avons-nous besoin d’extraire du texte à partir de fichiers XML ?

L’extraction de texte à partir de fichiers XML nous permet d’accéder et de manipuler les données réelles contenues dans les documents XML.

Comment puis-je extraire du texte à partir de fichiers XML à l’aide de Python ?

Vous pouvez extraire du texte à partir de fichiers XML à l’aide de GroupDocs.Parser Cloud SDK for Python, qui offre de puissantes fonctionnalités d’extraction de texte.

Est-il possible d’extraire des métadonnées de fichiers XML à l’aide du SDK Cloud GroupDocs.Parser pour Python ?

Oui, GroupDocs.Parser Cloud SDK for Python prend en charge l’extraction de métadonnées à partir de fichiers XML. Vous pouvez récupérer des informations de métadonnées telles que l’auteur, la date de création, la date de modification, etc.

Puis-je extraire des images intégrées dans des fichiers XML à l’aide du SDK Cloud GroupDocs.Parser pour Python ?

Oui, GroupDocs.Parser Cloud SDK for Python vous permet d’extraire des images intégrées dans des fichiers XML et de les convertir en différents formats.

Voir également

Voici quelques articles connexes qui pourraient vous être utiles :