
XML(eXtensible Markup Language) jest popularnym formatem danych do przechowywania i wymiany zorganizowanych informacji. Jest szeroko stosowany w różnych dziedzinach, w tym w rozwoju stron internetowych, przechowywaniu danych i transferze danych. Ekstrakcja tekstu z plików XML jest kluczowa z wielu powodów. Pozwala nam uzyskać dostęp do rzeczywistych danych zawartych w dokumentach XML i je przekształcać. Dzięki ekstrakcji tekstu możemy przeprowadzać różne operacje, takie jak analiza danych, transformacja danych i integracja danych. W tym artykule zbadamy, jak wydobywać tekst z XML w Python przy użyciu REST API.
W poniższym artykule zostaną omówione następujące tematy:
- Python REST API do analizowania dokumentu XML i instalacja SDK
- Extract All Text from XML File in Python using REST API
Python REST API do analizy dokumentu XML i instalacji SDK
GroupDocs.Parser Cloud SDK for Python to potężne narzędzie, które upraszcza ekstrakcję tekstu z XML i innych formatów plików. Oferuje szeroki zakres funkcji, w tym analizę dokumentów, ekstrakcję tekstu, ekstrakcję metadanych i wiele innych. Dzięki intuicyjnemu API, programiści mogą łatwo zintegrować możliwości ekstrakcji tekstu w swoich aplikacjach Python. Obsługuje również C# .NET, Java, PHP, Ruby i Node.js SDK jako swoich członków rodziny parserów dokumentów dla Cloud API. SDK można zintegrować z aplikacją opartą na Python, aby uprościć proces tworzenia i zwiększyć wydajność.
Zainstaluj GroupDocs.Parser Cloud w swoim projekcie Python za pomocą pip (package installer for Python) używając następującego polecenia w konsoli, aby wyodrębnić informacje z XML:
pip install groupdocs_parser_cloud
Teraz, proszę uzyskać swój Client ID i Client Secret z dashboard i dodać kod jak pokazano poniżej:
# Importuj zespół SDK parsowania dokumentów
import groupdocs_parser_cloud
# Pobierz appsid i appkey z https://dashboard.groupdocs.cloud po darmowej rejestracji.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Get File API configurations.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
Extract All Text from XML File in Python using REST API
Aby wyodrębnić tekst z dokumentów XML w Python przy użyciu GroupDocs.Parser Cloud SDK dla Python, wykonaj następujące kroki:
Prześlij plik
Najpierw prześlij dokument XML do chmury, używając poniższego przykładu kodu:
# Utwórz instancję API plików
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Call upload file request
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# Prześlij plik do chmury
response = file_api.upload_file(request)
print(response.uploaded)
W rezultacie przesłany plik XML będzie dostępny w [files section][https://dashboard.groupdocs.cloud/files] na Twoim pulpicie na chmurze.
Extract all Text from XML data using Python
W tej sekcji napiszemy kroki oraz przykładowy fragment kodu, który demonstruje, jak wyodrębnić tekst z dokumentu XML w Python, używając GroupDocs.Parser Cloud SDK dla Python:
- Najpierw utwórz instancję klasy ParseApi.
- Po drugie, utwórz instancję klasy TextOptions().
- Po trzecie, utwórz instancję klasy FileInfo.
- I przypisz to do opcji tekstu metody fileInfo.
- Następnie ustaw ścieżkę do pliku XML jako wejście.
- Teraz utwórz instancję klasy TextRequest() i przekaz parametr TextOptions.
- W końcu uzyskaj wyniki, wywołując metodę ParseApi.text() i przekazując parametr TextRequest.
Poniższy przykład kodu pokazuje, jak wyodrębnić tekst z dokumentu XML w Python za pomocą REST API:
# How to Extract Text from XML in Python using REST API
try:
# api initialization
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# definiować opcje tekstowe
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
Możesz zobaczyć wynik na poniższym obrazku:

Extract all Text from XML data using Python.
Darmowy internetowy parser dokumentów
Jak wyodrębnić tekst z XML online za darmo? Proszę spróbować online XML parser software do wyodrębnienia danych z plików XML. To narzędzie XML Parser zostało opracowane przy użyciu wcześniej wspomnianej biblioteki analizatora Python.
Wnioski
W podsumowaniu, ekstrakcja tekstu z plików XML jest podstawowym zadaniem podczas pracy z danymi XML. Python, w połączeniu z GroupDocs.Parser Cloud SDK, zapewnia niezawodne i efektywne rozwiązanie do ekstrakcji tekstu z plików XML. Oto, czego nauczyłeś się z tego artykułu:
- How to extract all text from XML documents in Python using REST API.
- Programmatically upload an XML file to the cloud using Python.
- Oprogramowanie do zdalnego ekstrakcji danych XML do analizy dokumentów XML.
Oprócz tego możesz dowiedzieć się więcej o GroupDocs.Parser Cloud API korzystając z documentation. Oferujemy również sekcję API Reference, która pozwala wizualizować i wchodzić w interakcję z naszymi API bezpośrednio przez przeglądarkę. Cały kod źródłowy SDK Python jest dostępny za darmo na Github.
Finally, we keep writing new blog articles on different file formats and parsing using REST API. So, please get in touch for the latest updates.
Ask a question
W przypadku jakichkolwiek pytań lub wątpliwości dotyczących parsera dokumentów XML, prosimy o kontakt z nami za pośrednictwem naszego forum.
FAQs
Why do we need to extract text from XML files?
Ekstrakcja tekstu z plików XML pozwala nam na dostęp do rzeczywistych danych zawartych w dokumentach XML oraz ich manipulację.
How can I extract text from XML files using Python?
Możesz wyodrębniać tekst z plików XML za pomocą GroupDocs.Parser Cloud SDK for Python, który oferuje potężne możliwości wyodrębniania tekstu.
Is it possible to extract metadata from XML files using GroupDocs.Parser Cloud SDK for Python?
Tak, GroupDocs.Parser Cloud SDK for Python obsługuje ekstrakcję metadanych z plików XML. Możesz uzyskać informacje o metadanych, takie jak autor, data utworzenia, data modyfikacji i inne.
Can I extract images embedded in XML files using GroupDocs.Parser Cloud SDK for Python?
Tak, GroupDocs.Parser Cloud SDK for Python pozwala na ekstrakcję obrazów osadzonych w plikach XML i konwersję ich do różnych formatów.
Zobacz także
Oto kilka powiązanych artykułów, które mogą okazać się pomocne:
- Parsowanie dokumentów – Ekstrakcja tekstu z pliku PDF w Javie
- Ekstrakcja danych z PDF za pomocą REST API w Node.js
- Analizuj dokumenty Word przy użyciu REST API w Python
- Wyodrębnij obrazy z dokumentów PDF za pomocą Python
- Jak wyodrębnić tekst z pliku PDF za pomocą Python
- Wyodrębnianie konkretnych danych z pliku PDF za pomocą Python
- Java DOM Parser - Wyodrębnij tekst z dokumentów XML przy użyciu Java