Extrahieren Sie Text aus XML in Python mithilfe der REST-API.

XML(eXtensible Markup Language) ist ein beliebtes Datenformat zum Speichern und Austauschen strukturierter Informationen. Es wird häufig in verschiedenen Bereichen eingesetzt, darunter Webentwicklung, Datenspeicherung und Datenübertragung. Das Extrahieren von Text aus XML Dateien ist aus vielen Gründen von entscheidender Bedeutung. Es ermöglicht uns, auf die tatsächlich in XML Dokumenten enthaltenen Daten zuzugreifen und diese zu bearbeiten. Durch das Extrahieren von Text können wir verschiedene Vorgänge durchführen, wie z. B. Datenanalyse, Datentransformation und Datenintegration. In diesem Artikel erfahren Sie, wie Sie mithilfe der REST-API Text aus XML in Python extrahieren.

Die folgenden Themen sollen in diesem Artikel behandelt werden:

Python-REST-API zum Parsen von XML Dokumenten und SDK-Installation

GroupDocs.Parser Cloud SDK für Python ist ein leistungsstarkes Tool, das die Extraktion von Text aus XML und anderen Dateiformaten vereinfacht. Es bietet eine breite Palette von Funktionen, einschließlich Dokumentenanalyse, Textextraktion, Metadatenextraktion und vielem mehr. Mit seiner intuitiven API können Entwickler Textextraktionsfunktionen einfach in ihre Python-Anwendungen integrieren. Es unterstützt außerdem C# .NET-, Java-, PHP-, Ruby und Node.js-SDKs als Mitglieder der Dokumentparser-Familie für die Cloud-API. Das SDK kann in eine Python-basierte Anwendung integriert werden, um Ihren Entwicklungsprozess zu vereinfachen und die Produktivität zu steigern.

Installieren Sie GroupDocs.Parser Cloud in Ihrem Python-Projekt mit pip (Paketinstallationsprogramm für Python), indem Sie den folgenden Befehl in der Konsole verwenden, um Informationen aus XML zu extrahieren:

pip install groupdocs_parser_cloud

Rufen Sie nun bitte Ihre Client-ID und Ihr Client-Geheimnis aus dem Dashboard ab und fügen Sie den Code wie unten gezeigt hinzu:

# Importieren Sie das Groupdocs-Parser-SDK
import groupdocs_parser_cloud

# Holen Sie sich nach der kostenlosen Registrierung app_sid und app_key von https://dashboard.groupdocs.cloud.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Datei-API-Konfigurationen abrufen.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Extrahieren Sie den gesamten Text aus einer XML-Datei in Python mithilfe der REST-API

Führen Sie die folgenden Schritte aus, um Text aus XML Dokumenten in Python mithilfe des GroupDocs.Parser Cloud SDK für Python zu extrahieren:

Laden Sie die Datei hoch

Laden Sie zunächst das XML Dokument mithilfe des unten angegebenen Codebeispiels in die Cloud hoch:

# Erstellen Sie eine Instanz der Datei-API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Rufen Sie die Dateianfrage zum Hochladen an
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Laden Sie die Datei in die Cloud hoch
response = file_api.upload_file(request)
print(response.uploaded)

Dadurch ist die hochgeladene XML-Datei im Dateienbereich Ihres Dashboards in der Cloud verfügbar.

Extrahieren Sie den gesamten Text aus XML-Daten mit Python

In diesem Abschnitt schreiben wir die Schritte und ein Beispielcode-Snippet, das zeigt, wie man mit GroupDocs.Parser Cloud SDK für Python Text aus einem XML Dokument in Python extrahiert:

  • Erstellen Sie zunächst eine Instanz der Klasse ParseApi.
  • Zweitens erstellen Sie eine Instanz der TextOptions() Klasse.
  • Drittens erstellen Sie eine Instanz der Klasse FileInfo.
  • Und weisen Sie es der FileInfo-Methode der Textoptionen zu.
  • Als nächstes legen Sie den Pfad zur XML-Datei als Eingabe fest.
  • Erstellen Sie nun eine Instanz der TextRequest() Klasse und übergeben Sie den TextOptions-Parameter.
  • Abschließend erhalten Sie Ergebnisse, indem Sie die Methode ParseApi.text() aufrufen und den Parameter TextRequest übergeben.

Das folgende Codebeispiel zeigt, wie Sie mithilfe der REST-API Text aus einem XML Dokument in Python extrahieren:

# So extrahieren Sie Text aus XML in Python mithilfe der REST-API
try:
  # API-Initialisierung
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # Definieren Sie Textoptionen
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Sie können die Ausgabe im Bild unten sehen:

Python extrahiert Text aus einer XML-Datei

Extrahieren Sie den gesamten Text aus XML-Daten mit Python.

Kostenloser Online Dokumentparser

Wie extrahiere ich kostenlos online Text aus XML? Bitte versuchen Sie es mit einer Online-XML-Parser-Software, um Daten aus XML Dateien zu extrahieren. Dieses XML-Parser-Tool wurde unter Verwendung der oben genannten Python-Parser-Bibliothek entwickelt.

Abschluss

Zusammenfassend lässt sich sagen, dass das Extrahieren von Text aus XML Dateien eine grundlegende Aufgabe bei der Arbeit mit XML-Daten ist. Python bietet in Verbindung mit dem GroupDocs.Parser Cloud SDK eine zuverlässige und effiziente Lösung zum Extrahieren von Text aus XML Dateien. Folgendes haben Sie aus diesem Artikel gelernt:

  • wie man den gesamten Text aus XML Dokumenten in Python mithilfe der REST-API extrahiert;
  • Laden Sie mithilfe von Python programmgesteuert eine XML-Datei in die Cloud hoch.
  • und Online-XML-Datenextraktionssoftware zum Parsen von XML Dokumenten.

Außerdem können Sie mithilfe der Dokumentation mehr über die GroupDocs.Parser Cloud API erfahren. Wir bieten auch einen Abschnitt API-Referenz an, mit dem Sie unsere APIs direkt über den Browser visualisieren und mit ihnen interagieren können. Der vollständige Quellcode des Python SDK ist auf Github frei verfügbar.

Schließlich schreiben wir weiterhin neue Blog-Artikel zu verschiedenen Dateiformaten und analysieren sie mithilfe der REST-API. Bitte kontaktieren Sie uns für die neuesten Updates.

Stelle eine Frage

Falls Sie Fragen oder Unklarheiten zum XML Dokumentparser haben, können Sie uns gerne über unser Forum kontaktieren.

FAQs

Warum müssen wir Text aus XML Dateien extrahieren?

Durch das Extrahieren von Text aus XML Dateien können wir auf die tatsächlichen Daten zugreifen und diese bearbeiten, die in den XML Dokumenten enthalten sind.

Wie kann ich mit Python Text aus XML Dateien extrahieren?

Sie können Text aus XML Dateien mit dem GroupDocs.Parser Cloud SDK for Python extrahieren, das leistungsstarke Textextraktionsfunktionen bietet.

Ist es möglich, Metadaten aus XML Dateien mit dem GroupDocs.Parser Cloud SDK für Python zu extrahieren?

Ja, GroupDocs.Parser Cloud SDK für Python unterstützt das Extrahieren von Metadaten aus XML Dateien. Sie können Metadateninformationen wie Autor, Erstellungsdatum, Änderungsdatum und mehr abrufen.

Kann ich mit GroupDocs.Parser Cloud SDK für Python in XML Dateien eingebettete Bilder extrahieren?

Ja, mit GroupDocs.Parser Cloud SDK für Python können Sie in XML Dateien eingebettete Bilder extrahieren und in verschiedene Formate konvertieren.

Siehe auch

Hier sind einige verwandte Artikel, die für Sie hilfreich sein könnten: