Wyodrębnij tekst z XML w Python za pomocą REST API.

XML(eXtensible Markup Language) to popularny format danych do przechowywania i wymiany informacji strukturalnych. Jest szeroko stosowany w różnych dziedzinach, w tym w tworzeniu stron internetowych, przechowywaniu danych i przesyłaniu danych. Wyodrębnianie tekstu z plików XML jest kluczowe z wielu powodów. Pozwala nam uzyskiwać dostęp i manipulować rzeczywistymi danymi zawartymi w dokumentach XML. Wyodrębniając tekst, możemy wykonywać różne operacje, takie jak analiza danych, transformacja danych i integracja danych. W tym artykule przyjrzymy się, jak wyodrębnić tekst z XML w Python za pomocą REST API.

W tym artykule zostaną omówione następujące tematy:

Python REST API do parsowania dokumentów XML i instalacji SDK

GroupDocs.Parser Cloud SDK for Python to potężne narzędzie, które upraszcza wyodrębnianie tekstu z XML i innych formatów plików. Zapewnia szeroki zakres funkcji, w tym parsowanie dokumentów, ekstrakcję tekstu, ekstrakcję metadanych i wiele innych. Dzięki intuicyjnemu interfejsowi API programiści mogą łatwo zintegrować funkcje wyodrębniania tekstu ze swoimi aplikacjami Python. Obsługuje również zestawy SDK C# .NET, Java, PHP, Ruby i Node.js jako członkowie rodziny parserów dokumentów dla Cloud API. SDK można zintegrować z aplikacją opartą na języku Python, aby uprościć proces programowania i zwiększyć produktywność.

Zainstaluj GroupDocs.Parser Cloud w swoim projekcie w Python za pomocą pip (package installer for Python), używając następującego polecenia w konsoli, aby wyodrębnić informacje z XML:

pip install groupdocs_parser_cloud

Teraz pobierz swój identyfikator klienta i klucz tajny klienta z panelu nawigacyjnego i dodaj kod, jak pokazano poniżej:

# Importuj pakiet SDK parsera Groupdocs
import groupdocs_parser_cloud

# Uzyskaj app_sid i app_key z https://dashboard.groupdocs.cloud po bezpłatnej rejestracji.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

# Pobierz konfiguracje interfejsu API plików.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"

Wyodrębnij cały tekst z pliku XML w Python za pomocą REST API

Aby wyodrębnić tekst z dokumentów XML w Python za pomocą GroupDocs.Parser Cloud SDK for Python, wykonaj następujące kroki:

Prześlij plik

Najpierw prześlij dokument XML do chmury, korzystając z przykładowego kodu podanego poniżej:

# Utwórz instancję pliku API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)

# Zadzwoń do przesłania pliku
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)

# Prześlij plik do chmury
response = file_api.upload_file(request)
print(response.uploaded)

W rezultacie przesłany plik XML będzie dostępny w sekcji plików Twojego pulpitu nawigacyjnego w chmurze.

Wyodrębnij cały tekst z danych XML za pomocą Python

W tej sekcji napiszemy kroki i przykładowy fragment kodu, który pokazuje, jak wyodrębnić tekst z dokumentu XML w Python za pomocą GroupDocs.Parser Cloud SDK dla Python:

  • Najpierw utwórz instancję klasy ParseApi.
  • Po drugie, utwórz instancję klasy TextOptions().
  • Po trzecie, utwórz instancję klasy FileInfo.
  • I przypisz go do metody fileInfo opcji tekstowych.
  • Następnie ustaw ścieżkę do pliku XML jako dane wejściowe.
  • Teraz utwórz instancję klasy TextRequest() i przekaż parametr TextOptions.
  • Na koniec uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.

Poniższy przykładowy kod pokazuje, jak wyodrębnić tekst z dokumentu XML w Python przy użyciu interfejsu API REST:

# Jak wyodrębnić tekst z XML w Python za pomocą REST API
try:
  # inicjalizacja API
  parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)

  # zdefiniuj opcje tekstowe
  options = groupdocs_parser_cloud.TextOptions()
  options.file_info = groupdocs_parser_cloud.FileInfo()
  options.file_info.file_path = "python-testing/input-sample-file.xml"

  request = groupdocs_parser_cloud.TextRequest(options)
  result = parseApi.text(request)

  print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
  print("Exception while calling API: {0}".format(e.message))

Możesz zobaczyć dane wyjściowe na poniższym obrazku:

Python Wyodrębnij tekst z pliku XML

Wyodrębnij cały tekst z danych XML za pomocą Python.

Darmowy parser dokumentów online

Jak bezpłatnie wyodrębnić tekst z XML online? Wypróbuj oprogramowanie parsera XML online, aby wyodrębnić dane z plików XML. To narzędzie XML Parser zostało opracowane przy użyciu wyżej wymienionej biblioteki parsera Python.

Wniosek

Podsumowując, wyodrębnianie tekstu z plików XML jest podstawowym zadaniem podczas pracy z danymi XML. Python w połączeniu z GroupDocs.Parser Cloud SDK zapewnia niezawodne i wydajne rozwiązanie do wyodrębniania tekstu z plików XML. Oto, czego dowiedziałeś się z tego artykułu:

  • jak wyodrębnić cały tekst z dokumentów XML w Python za pomocą REST API;
  • programowo przesłać plik XML do chmury za pomocą Python;
  • oraz oprogramowanie do ekstrakcji danych XML online do analizowania dokumentów XML.

Poza tym możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z dokumentacji. Udostępniamy również sekcję Informacje o interfejsach API, która umożliwia wizualizację i interakcję z naszymi interfejsami API bezpośrednio w przeglądarce. Pełny kod źródłowy Python SDK jest dostępny bezpłatnie na Github.

Wreszcie, wciąż piszemy nowe artykuły na blogu dotyczące różnych formatów plików i parsowania przy użyciu REST API. Dlatego prosimy o kontakt w celu uzyskania najnowszych aktualizacji.

Zadać pytanie

W przypadku jakichkolwiek pytań lub niejasności dotyczących parsera dokumentów XML, prosimy o kontakt za pośrednictwem naszego forum.

Często zadawane pytania

Dlaczego musimy wyodrębniać tekst z plików XML?

Wyodrębnianie tekstu z plików XML umożliwia nam dostęp do rzeczywistych danych zawartych w dokumentach XML i manipulowanie nimi.

Jak mogę wyodrębnić tekst z plików XML za pomocą Python?

Możesz wyodrębniać tekst z plików XML za pomocą GroupDocs.Parser Cloud SDK for Python, który zapewnia zaawansowane możliwości wyodrębniania tekstu.

Czy można wyodrębnić metadane z plików XML za pomocą GroupDocs.Parser Cloud SDK dla Python?

Tak, GroupDocs.Parser Cloud SDK for Python obsługuje wyodrębnianie metadanych z plików XML. Możesz pobrać informacje o metadanych, takie jak autor, data utworzenia, data modyfikacji i inne.

Czy mogę wyodrębnić obrazy osadzone w plikach XML za pomocą GroupDocs.Parser Cloud SDK for Python?

Tak, GroupDocs.Parser Cloud SDK for Python umożliwia wyodrębnianie obrazów osadzonych w plikach XML i konwertowanie ich do różnych formatów.

Zobacz też

Oto kilka powiązanych artykułów, które mogą okazać się pomocne: