XML(eXtensible Markup Language) é um formato de dados popular para armazenar e trocar informações estruturadas. É amplamente utilizado em vários domínios, incluindo desenvolvimento web, armazenamento de dados e transferência de dados. A extração de texto de arquivos XML é crucial por vários motivos. Ele nos permite acessar e manipular os dados reais contidos nos documentos XML. Ao extrair texto, podemos realizar várias operações, como análise de dados, transformação de dados e integração de dados. Neste artigo, exploraremos como extrair texto de XML em Python usando a API REST.
Os seguintes tópicos serão abordados neste artigo:
- API REST do Python para analisar o documento XML e a instalação do SDK
- Extrair todo o texto do arquivo XML em Python usando a API REST
Python REST API para analisar o documento XML e a instalação do SDK
GroupDocs.Parser Cloud SDK for Python é uma ferramenta poderosa que simplifica a extração de texto de XML e outros formatos de arquivo. Ele fornece uma ampla gama de recursos, incluindo análise de documentos, extração de texto, extração de metadados e muito mais. Com sua API intuitiva, os desenvolvedores podem integrar facilmente os recursos de extração de texto em seus aplicativos Python. Ele também suporta SDKs C# .NET, Java, PHP, Ruby e Node.js como seus membros da família do analisador de documentos para a API Cloud. O SDK pode ser integrado a um aplicativo baseado em Python para simplificar seu processo de desenvolvimento e aumentar a produtividade.
Instale GroupDocs.Parser Cloud em seu projeto Python com pip (package installer for Python) usando o seguinte comando no console para extrair informações do XML:
pip install groupdocs_parser_cloud
Agora, obtenha seu Client ID e Client Secret no dashboard e adicione o código conforme mostrado abaixo:
# Importar SDK do analisador groupdocs
import groupdocs_parser_cloud
# Obtenha app_sid e app_key em https://dashboard.groupdocs.cloud após o registro gratuito.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Obtenha configurações de API de arquivo.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
Extraia todo o texto do arquivo XML em Python usando a API REST
Para extrair texto de documentos XML em Python usando GroupDocs.Parser Cloud SDK para Python, siga estas etapas:
Carregar o arquivo
Em primeiro lugar, carregue o documento XML na nuvem usando o exemplo de código abaixo:
# Crie uma instância da API de arquivo
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Solicitação de arquivo de upload de chamada
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# Carregar arquivo para a nuvem
response = file_api.upload_file(request)
print(response.uploaded)
Como resultado, o arquivo XML carregado estará disponível na seção de arquivos do seu painel na nuvem.
Extraia todo o texto de dados XML usando Python
Nesta seção, escreveremos as etapas e um trecho de código de exemplo que demonstra como extrair texto de um documento XML em Python usando GroupDocs.Parser Cloud SDK for Python:
- Primeiramente, crie uma instância da classe ParseApi.
- Em segundo lugar, crie uma instância da classe TextOptions().
- Em terceiro lugar, crie uma instância da classe FileInfo.
- E atribua-o ao método fileInfo de opções de texto.
- Em seguida, defina o caminho para o arquivo XML como entrada.
- Agora, crie uma instância da classe TextRequest() e passe o parâmetro TextOptions.
- Por fim, obtenha os resultados chamando o método ParseApi.text() e passando o parâmetro TextRequest.
O exemplo de código a seguir mostra como extrair texto de um documento XML em Python usando a API REST:
# Como extrair texto de XML em Python usando a API REST
try:
# inicialização da API
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definir opções de texto
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
Você pode ver a saída na imagem abaixo:
Analisador de documentos on-line gratuito
Como extrair texto de XML online gratuitamente? Tente um software analisador de XML on-line para extrair dados de arquivos XML. Esta ferramenta XML Parser é desenvolvida usando a biblioteca de analisador Python mencionada acima.
Conclusão
Concluindo, extrair texto de arquivos XML é uma tarefa fundamental quando se trabalha com dados XML. O Python, juntamente com o GroupDocs.Parser Cloud SDK, fornece uma solução confiável e eficiente para extrair texto de arquivos XML. O seguinte é o que você aprendeu com este artigo:
- como extrair todo o texto de documentos XML em Python usando REST API;
- carregar programaticamente um arquivo XML para a nuvem usando Python;
- e software de extração de dados XML online para analisar documentos XML.
Além disso, você pode aprender mais sobre GroupDocs.Parser Cloud API usando a documentação. Também fornecemos uma seção Referência de API que permite visualizar e interagir com nossas APIs diretamente pelo navegador. O código-fonte completo do Python SDK está disponível gratuitamente no Github.
Por fim, continuamos escrevendo novos artigos de blog em diferentes formatos de arquivo e analisando usando a API REST. Portanto, entre em contato para obter as atualizações mais recentes.
Faça uma pergunta
Caso você tenha alguma dúvida ou confusão sobre o analisador de documentos XML, sinta-se à vontade para nos contatar através do nosso fórum.
perguntas frequentes
Por que precisamos extrair texto de arquivos XML?
A extração de texto de arquivos XML nos permite acessar e manipular os dados reais contidos nos documentos XML.
Como posso extrair texto de arquivos XML usando Python?
Você pode extrair texto de arquivos XML usando GroupDocs.Parser Cloud SDK para Python, que fornece recursos avançados de extração de texto.
É possível extrair metadados de arquivos XML usando GroupDocs.Parser Cloud SDK para Python?
Sim, GroupDocs.Parser Cloud SDK para Python suporta a extração de metadados de arquivos XML. Você pode recuperar informações de metadados, como autor, data de criação, data de modificação e muito mais.
Posso extrair imagens incorporadas em arquivos XML usando GroupDocs.Parser Cloud SDK para Python?
Sim, GroupDocs.Parser Cloud SDK for Python permite extrair imagens incorporadas em arquivos XML e convertê-las em diferentes formatos.
Veja também
Aqui estão alguns artigos relacionados que podem ser úteis:
- Análise de Documento – Extrair Texto de Arquivo PDF em Java
- Extrair dados de PDF usando API REST em Node.js
- Analisar documentos do Word usando a API REST em Python
- Extrair imagens de documentos PDF usando Python
- Como extrair texto de PDF usando Python
- Extrair dados específicos de PDF usando Python
- Java DOM Parser - Extraia texto de documentos XML usando Java