XML(Extensible Markup Language) được sử dụng rộng rãi để lưu trữ và chuyển giao dữ liệu có cấu trúc giữa các hệ thống. Trong nhiều ứng dụng kinh doanh, việc trích xuất văn bản từ các tệp XML là cần thiết để truy cập hoặc xử lý nội dung thực tế. Trong bài viết này, chúng ta sẽ khám phá cách lấy văn bản từ XML bằng cách sử dụng .NET Cloud SDK, cung cấp một giải pháp đơn giản dựa trên REST để trích xuất và tải xuống văn bản XML thông qua lập trình.


Tại sao trích xuất văn bản từ XML trong .NET?

Trích xuất văn bản từ các tệp XML cho phép các nhà phát triển đọc, xử lý và phân tích thông tin có cấu trúc được lưu trữ trong các tài liệu XML. Với .NET REST API, bạn có thể dễ dàng trích xuất văn bản từ các tệp XML, phân tích nội dung hoặc tích hợp việc trích xuất dữ liệu XML vào các hệ thống tự động hóa khác.

Các trường hợp sử dụng phổ biến bao gồm:

  • Phân tích các tệp cấu hình XML hoặc nhật ký.
  • Trích xuất văn bản từ tài liệu dựa trên XML (RSS, hóa đơn, báo cáo).
  • Di chuyển nội dung XML sang các định dạng dữ liệu hoặc cơ sở dữ liệu khác.

API Xử lý XML

GroupDocs.Parser Cloud SDK for .NET là một API phân tích tài liệu mạnh mẽ cho phép bạn trích xuất văn bản, siêu dữ liệu và nội dung có cấu trúc từ nhiều loại tệp khác nhau, bao gồm cả XML. Bạn có thể dễ dàng tích hợp nó vào bất kỳ ứng dụng .NET hoặc ASP.NET nào.

Cài đặt nó thông qua Trình quản lý gói NuGet:

Install-Package GroupDocs.Parser-Cloud

Sau đó, lấy ID Khách hàng và Mật khẩu Khách hàng của bạn từ GroupDocs Cloud Dashboard để xác thực các cuộc gọi API.


Trích xuất văn bản từ XML trong C#

Dưới đây là cách bạn có thể trích xuất văn bản từ một tệp XML bằng đoạn mã C# .NET.

Bước 1: Khởi tạo API

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-XXXXXX", "XXXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";

var parseApi = new ParseApi(configuration);

Bước 2: Tải tệp XML lên Cloud

using (var fileStream = System.IO.File.OpenRead("input.xml"))
{
    // upload the input XML to the cloud storage
    var uploadRequest = new Requests.UploadFileRequest("input.xml", fileStream);
    fileApi.UploadFile(uploadRequest);
}

Bước 3: Trích xuất tất cả văn bản từ XML

var request = new TextRequest(options);
// extract text from XML
var response = parseApi.Text(request);
// Để biết thêm ví dụ, vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-XXXXXX", "XXXXXXXXXXXX");
configuration.ApiBaseUrl = "https://api.groupdocs.cloud";

// create instance of ParseA[pi
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input XML file
using (var fileStream = System.IO.File.OpenRead("input.xml"))
{
    // tải lên XML đầu vào lên bộ nhớ đám mây
    var uploadRequest = new Requests.UploadFileRequest("input.xml", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.xml" }
};

var request = new TextRequest(options);
// extract text from XML
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

Điều này sẽ lấy văn bản từ XML và in nội dung được trích xuất trực tiếp lên bảng điều khiển. Bạn cũng có thể tải văn bản XML hoặc lưu nó cục bộ nếu cần.

Lấy văn bản XML trong C#

Một bản xem trước về việc trích xuất văn bản từ tệp XML sử dụng .NET REST API.


Lấy văn bản từ XML bằng lệnh cURL

Bạn cũng có thể thực hiện cùng một tác vụ để trích xuất văn bản từ tệp XML bằng cách sử dụng GroupDocs.Parser Cloud và lệnh cURL:

Bước 1: - Lấy Token JWT: Bước đầu tiên là lấy một mã thông báo truy cập JWT dựa trên thông tin xác thực của khách hàng.

curl -v -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Bước 2: - Trích xuất văn bản từ tệp XML:

curl -v -X POST "https://api.groupdocs.cloud/v2.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"sample.xml\" } }"

Lệnh này gửi một yêu cầu để trích xuất tất cả văn bản từ tài liệu XML của bạn (XML đã có sẵn trong Cloud Storage).


Trình trích xuất văn bản XML trực tuyến miễn phí

Muốn thử mà không cần viết mã? Sử dụng Trình trích xuất văn bản XML trực tuyến miễn phí được cung cấp bởi GroupDocs.Parser Cloud. Bạn có thể tải lên một tệp XML và tải xuống văn bản XML ngay lập tức.

Trích xuất văn bản từ XML trực tuyến

Ứng dụng trích xuất văn bản XML trực tuyến miễn phí được cung cấp bởi GroupDocs.Parser Cloud.


Câu hỏi thường gặp (FAQs)

Q1: Tôi có thể trích xuất chỉ các nút hoặc thẻ cụ thể từ một tệp XML không? Có. SDK hỗ trợ các tùy chọn nâng cao để trích xuất các phần, nút hoặc văn bản cụ thể từ các tệp XML bằng cách sử dụng các tính năng trích xuất dữ liệu có cấu trúc.

Q2: Tôi có thể trích xuất văn bản từ các tệp XML được lưu trữ trực tuyến không? Chắc chắn rồi. Bạn có thể chỉ định URLs hoặc sử dụng các tệp từ lưu trữ đám mây trực tiếp.

Q3: An ninh của việc trích xuất văn bản XML trong GroupDocs Cloud như thế nào? Tất cả các yêu cầu API sử dụng mã hóa HTTPS, và các tệp của bạn vẫn riêng tư trong môi trường lưu trữ đám mây của bạn.

Q4: Tôi có thể lấy văn bản từ các tệp XML lớn không? Có. SDK xử lý hiệu quả các tệp XML lớn và phức tạp bằng cách sử dụng xử lý trên đám mây.

Q5: Tôi không muốn tải lên các tệp tin bí mật của mình ở bất kỳ đâu? Tôi có những lựa chọn nào? GroupDocs.Parser Cloud cũng có sẵn dưới dạng hình ảnh Docker, có thể được sử dụng để self-host dịch vụ. Hoặc bạn có thể xây dựng dịch vụ của riêng mình bằng cách sử dụng GroupDocs.Parser High-code APIs.


Kết luận

Việc trích xuất văn bản từ các tài liệu XML là một quy trình quan trọng cho các ứng dụng xử lý dữ liệu có cấu trúc. Với GroupDocs.Parser Cloud SDK cho .NET, các nhà phát triển có thể dễ dàng trích xuất văn bản từ các tệp XML, lấy văn bản XML theo chương trình và thậm chí tải xuống văn bản XML để xử lý thêm. API dựa trên đám mây này đơn giản hóa việc phân tích dữ liệu, khiến cho các ứng dụng của bạn trở nên thông minh và tự động hơn.

Bắt đầu dùng thử miễn phí của bạn hôm nay tại GroupDocs.Parser Cloud và trải nghiệm việc trích xuất văn bản dễ dàng từ các tệp XML!


Các bài viết liên quan