Extraiga texto de XML en Python utilizando la API REST.

XML(lenguaje de marcado extensible) es un formato de datos popular para almacenar e intercambiar información estructurada. Es ampliamente utilizado en varios dominios, incluido el desarrollo web, el almacenamiento de datos y la transferencia de datos. La extracción de texto de archivos XML es crucial por muchas razones. Nos permite acceder y manipular los datos reales contenidos en los documentos XML. Al extraer texto, podemos realizar varias operaciones, como análisis de datos, transformación de datos e integración de datos. En este artículo, exploraremos cómo extraer texto de XML en Python utilizando la API REST.

En este artículo se tratarán los siguientes temas:

Python REST API para analizar documentos XML e instalación de SDK

GroupDocs.Parser Cloud SDK for Python es una poderosa herramienta que simplifica la extracción de texto de XML y otros formatos de archivo. Proporciona una amplia gama de funciones, incluido el análisis de documentos, la extracción de texto, la extracción de metadatos y muchas más. Con su API intuitiva, los desarrolladores pueden integrar fácilmente capacidades de extracción de texto en sus aplicaciones de Python. También es compatible con los SDK de C# .NET, Java, PHP, Ruby y Node.js como sus miembros de la familia de analizadores de documentos para la API de la nube. El SDK se puede integrar en una aplicación basada en Python para simplificar su proceso de desarrollo y mejorar la productividad.

Instale GroupDocs.Parser Cloud en su proyecto de Python con pip (instalador de paquetes para Python) usando el siguiente comando en la consola para extraer información de XML:

pip install groupdocs_parser_cloud

Ahora, obtenga su ID de cliente y Secreto de cliente del panel de control y agregue el código como se muestra a continuación:

# Importar el SDK del analizador de groupdocs
import groupdocs_parser_cloud

# Obtenga app_sid y app_key de https://dashboard.groupdocs.cloud después del registro gratuito.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Obtener configuraciones de la API de archivos.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Extraer todo el texto de un archivo XML en Python mediante la API REST

Para extraer texto de documentos XML en Python usando GroupDocs.Parser Cloud SDK para Python, siga estos pasos:

  • Subir el archivo XML a la nube
  • Extraer todo el texto de XML usando Python

Subir el archivo

En primer lugar, cargue el documento XML en la nube utilizando el ejemplo de código que se muestra a continuación:

# Crear una instancia de la API de archivo
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Solicitud de archivo de carga de llamadas
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Subir archivo a la nube
response = file_api.upload_file(request)
print(response.uploaded)

Como resultado, el archivo XML cargado estará disponible en la sección de archivos de su tablero en la nube.

Extrae todo el texto de los datos XML usando Python

En esta sección, escribiremos los pasos y un fragmento de código de ejemplo que demuestra cómo extraer texto de un documento XML en Python usando GroupDocs.Parser Cloud SDK para Python:

  • En primer lugar, cree una instancia de la clase ParseApi.
  • En segundo lugar, cree una instancia de la clase TextOptions().
  • En tercer lugar, cree una instancia de la clase FileInfo.
  • Y asígnelo al método fileInfo de opciones de texto.
  • A continuación, establezca la ruta al archivo XML como entrada.
  • Ahora, cree una instancia de la clase TextRequest() y pase el parámetro TextOptions.
  • Finalmente, obtenga resultados llamando al método ParseApi.text() y pasando el parámetro TextRequest.

El siguiente ejemplo de código muestra cómo extraer texto de un documento XML en Python usando la API REST:

# Cómo extraer texto de XML en Python usando la API REST
try:
  # inicialización de la API
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # definir opciones de texto
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Puedes ver la salida en la siguiente imagen:

Python Extrae texto de un archivo XML

Extraiga todo el texto de los datos XML utilizando Python.

Analizador de documentos en línea gratuito

¿Cómo extraer texto de XML en línea de forma gratuita? Pruebe un software analizador XML en línea para extraer datos de archivos XML. Esta herramienta XML Parser se desarrolla utilizando la biblioteca de analizador de Python mencionada anteriormente.

Conclusión

En conclusión, extraer texto de archivos XML es una tarea fundamental cuando se trabaja con datos XML. Python, junto con GroupDocs.Parser Cloud SDK, proporciona una solución confiable y eficiente para extraer texto de archivos XML. Lo siguiente es lo que has aprendido de este artículo:

  • cómo extraer todo el texto de documentos XML en Python usando REST API;
  • cargue mediante programación un archivo XML en la nube usando Python;
  • y software de extracción de datos XML en línea para analizar documentos XML.

Además, puede obtener más información sobre GroupDocs.Parser Cloud API utilizando la documentación. También proporcionamos una sección Referencia de API que le permite visualizar e interactuar con nuestras API directamente a través del navegador. El código fuente completo de Python SDK está disponible gratuitamente en Github.

Finalmente, seguimos escribiendo nuevos artículos de blog en diferentes formatos de archivo y analizando usando REST API. Por lo tanto, póngase en contacto para obtener las últimas actualizaciones.

Hacer una pregunta

En caso de que tenga alguna duda o confusión sobre el analizador de documentos XML, no dude en contactarnos a través de nuestro foro.

preguntas frecuentes

¿Por qué necesitamos extraer texto de archivos XML?

La extracción de texto de archivos XML nos permite acceder y manipular los datos reales contenidos en los documentos XML.

¿Cómo puedo extraer texto de archivos XML usando Python?

Puede extraer texto de archivos XML usando GroupDocs.Parser Cloud SDK for Python, que proporciona potentes capacidades de extracción de texto.

¿Es posible extraer metadatos de archivos XML usando GroupDocs.Parser Cloud SDK para Python?

Sí, GroupDocs.Parser Cloud SDK for Python admite la extracción de metadatos de archivos XML. Puede recuperar información de metadatos como el autor, la fecha de creación, la fecha de modificación y más.

¿Puedo extraer imágenes incrustadas en archivos XML usando GroupDocs.Parser Cloud SDK for Python?

Sí, GroupDocs.Parser Cloud SDK for Python le permite extraer imágenes incrustadas en archivos XML y convertirlas a diferentes formatos.

Ver también

Aquí hay algunos artículos relacionados que pueden resultarle útiles: