XML(Ngôn ngữ đánh dấu có thể mở rộng) là một định dạng dữ liệu phổ biến để lưu trữ và trao đổi thông tin có cấu trúc. Nó được sử dụng rộng rãi trong các lĩnh vực khác nhau, bao gồm phát triển web, lưu trữ dữ liệu và truyền dữ liệu. Trích xuất văn bản từ các tệp XML là rất quan trọng vì nhiều lý do. Nó cho phép chúng tôi truy cập và thao tác dữ liệu thực tế có trong các tài liệu XML. Bằng cách trích xuất văn bản, chúng ta có thể thực hiện nhiều thao tác khác nhau, chẳng hạn như phân tích dữ liệu, chuyển đổi dữ liệu và tích hợp dữ liệu. Trong bài viết này, chúng ta sẽ khám phá cách trích xuất văn bản từ XML trong Python bằng API REST.
Các chủ đề sau đây sẽ được đề cập trong bài viết này:
- API REST của Python để phân tích tài liệu XML và cài đặt SDK
- Trích xuất tất cả văn bản từ tệp XML trong Python bằng API REST
API REST của Python để phân tích cú pháp cài đặt SDK và tài liệu XML
GroupDocs.Parser Cloud SDK for Python là một công cụ mạnh giúp đơn giản hóa việc trích xuất văn bản từ XML và các định dạng tệp khác. Nó cung cấp nhiều tính năng, bao gồm phân tích cú pháp tài liệu, trích xuất văn bản, trích xuất siêu dữ liệu, v.v. Với API trực quan, các nhà phát triển có thể dễ dàng tích hợp khả năng trích xuất văn bản vào các ứng dụng Python của họ. Nó cũng hỗ trợ SDK C# .NET, Java, PHP, Ruby và Node.js với tư cách là các thành viên trong họ trình phân tích cú pháp tài liệu cho Cloud API. SDK có thể được tích hợp vào ứng dụng dựa trên Python để đơn giản hóa quy trình phát triển của bạn và nâng cao năng suất.
Cài đặt GroupDocs.Parser Cloud cho dự án Python của bạn bằng pip (trình cài đặt gói cho Python) sử dụng lệnh sau trong bảng điều khiển để trích xuất thông tin từ XML:
pip install groupdocs_parser_cloud
Bây giờ, vui lòng lấy Client ID và Client Secret của bạn từ dashboard và thêm mã như hình bên dưới:
# Nhập SDK trình phân tích cú pháp groupdocs
import groupdocs_parser_cloud
# Nhận app_sid & app_key từ https://dashboard.groupdocs.cloud sau khi đăng ký miễn phí.
app_sid = "xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
app_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"
# Nhận cấu hình API tệp.
configuration = groupdocs_parser_cloud.Configuration(app_sid, app_key)
configuration.api_base_url = "https://api.groupdocs.cloud"
storage_name = "LocalStorage"
Trích xuất tất cả văn bản từ tệp XML bằng Python bằng API REST
Để trích xuất văn bản từ tài liệu XML trong Python bằng GroupDocs.Parser Cloud SDK cho Python, hãy làm theo các bước sau:
- Tải lên tệp XML lên đám mây
- Trích xuất tất cả văn bản từ XML bằng Python
Tải tệp lên
Đầu tiên, tải tài liệu XML lên đám mây bằng cách sử dụng mã ví dụ dưới đây:
# Tạo một phiên bản của tệp API
file_api = groupdocs_parser_cloud.FileApi.from_config(configuration)
# Yêu cầu tệp tải lên cuộc gọi
request = groupdocs_parser_cloud.UploadFileRequest("python-testing\input-sample-file.pdf", "H:\\groupdocs-cloud-data\\input-sample-file.pdf", storage_name)
# Tải tệp lên đám mây
response = file_api.upload_file(request)
print(response.uploaded)
Do đó, tệp XML đã tải lên sẽ có sẵn trong phần tệp của trang tổng quan của bạn trên đám mây.
Trích xuất tất cả Văn bản từ dữ liệu XML bằng Python
Trong phần này, chúng tôi sẽ viết các bước và đoạn mã ví dụ trình bày cách trích xuất văn bản từ tài liệu XML bằng Python bằng GroupDocs.Parser Cloud SDK cho Python:
- Đầu tiên, tạo một thể hiện của lớp ParseApi.
- Thứ hai, tạo một thể hiện của lớp TextOptions().
- Thứ ba, tạo một thể hiện của lớp FileInfo.
- Và gán nó cho phương thức fileInfo tùy chọn văn bản.
- Tiếp theo, đặt đường dẫn đến tệp XML làm đầu vào.
- Bây giờ, hãy tạo một thể hiện của lớp TextRequest() và truyền tham số TextOptions.
- Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.
Mẫu mã sau đây cho biết cách trích xuất văn bản từ tài liệu XML bằng Python bằng API REST:
# Cách trích xuất văn bản từ XML trong Python bằng API REST
try:
# khởi tạo api
parseApi = groupdocs_parser_cloud.ParseApi.from_config(configuration)
# xác định các tùy chọn văn bản
options = groupdocs_parser_cloud.TextOptions()
options.file_info = groupdocs_parser_cloud.FileInfo()
options.file_info.file_path = "python-testing/input-sample-file.xml"
request = groupdocs_parser_cloud.TextRequest(options)
result = parseApi.text(request)
print("Successfully extracted text: " + result.text)
except groupdocs_parser_cloud.ApiException as e:
print("Exception while calling API: {0}".format(e.message))
Bạn có thể thấy đầu ra trong hình dưới đây:
Trình phân tích tài liệu trực tuyến miễn phí
Làm cách nào để trích xuất văn bản từ XML trực tuyến miễn phí? Vui lòng dùng thử phần mềm phân tích cú pháp XML trực tuyến để trích xuất dữ liệu từ các tệp XML. Công cụ Trình phân tích cú pháp XML này được phát triển bằng cách sử dụng thư viện trình phân tích cú pháp Python đã đề cập ở trên.
Phần kết luận
Tóm lại, trích xuất văn bản từ các tệp XML là một nhiệm vụ cơ bản khi làm việc với dữ liệu XML. Python, kết hợp với GroupDocs.Parser Cloud SDK, cung cấp giải pháp đáng tin cậy và hiệu quả để trích xuất văn bản từ tệp XML. Sau đây là những gì bạn đã học được từ bài viết này:
- cách trích xuất tất cả văn bản từ tài liệu XML trong Python bằng API REST;
- lập trình tải tệp XML lên đám mây bằng Python;
- và phần mềm trích xuất dữ liệu XML trực tuyến để phân tích các tài liệu XML.
Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Python SDK có sẵn miễn phí trên Github.
Cuối cùng, chúng tôi tiếp tục viết các bài blog mới trên các định dạng tệp khác nhau và phân tích cú pháp bằng API REST. Vì vậy, vui lòng liên hệ để cập nhật thông tin mới nhất.
Đặt một câu hỏi
Trong trường hợp bạn có bất kỳ thắc mắc hoặc nhầm lẫn nào về trình phân tích cú pháp tài liệu XML, vui lòng liên hệ với chúng tôi qua diễn đàn của chúng tôi.
câu hỏi thường gặp
Tại sao chúng ta cần trích xuất văn bản từ tệp XML?
Trích xuất văn bản từ các tệp XML cho phép chúng tôi truy cập và thao tác dữ liệu thực tế có trong các tài liệu XML.
Làm cách nào tôi có thể trích xuất văn bản từ tệp XML bằng Python?
Bạn có thể trích xuất văn bản từ tệp XML bằng cách sử dụng GroupDocs.Parser Cloud SDK for Python, cung cấp khả năng trích xuất văn bản mạnh mẽ.
Có thể trích xuất siêu dữ liệu từ các tệp XML bằng GroupDocs.Parser Cloud SDK cho Python không?
Có, GroupDocs.Parser Cloud SDK for Python hỗ trợ trích xuất siêu dữ liệu từ các tệp XML. Bạn có thể truy xuất thông tin siêu dữ liệu như tác giả, ngày tạo, ngày sửa đổi, v.v.
Tôi có thể trích xuất hình ảnh được nhúng trong tệp XML bằng GroupDocs.Parser Cloud SDK cho Python không?
Có, GroupDocs.Parser Cloud SDK for Python cho phép bạn trích xuất hình ảnh được nhúng trong tệp XML và chuyển đổi chúng sang các định dạng khác.
Xem thêm
Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích:
- Phân tích cú pháp tài liệu – Trích xuất văn bản từ tệp PDF trong Java
- Trích xuất dữ liệu từ PDF bằng API REST trong Node.js
- Phân tích tài liệu Word bằng API REST trong Python
- Trích xuất hình ảnh từ tài liệu PDF bằng Python
- Cách trích xuất văn bản từ PDF bằng Python
- Trích xuất dữ liệu cụ thể từ PDF bằng Python
- Java DOM Parser - Trích xuất văn bản từ tài liệu XML bằng Java