Trong kỷ nguyên kỹ thuật số ngày nay, việc trích xuất dữ liệu từ các tài liệu XML(Ngôn ngữ đánh dấu mở rộng) đóng một vai trò quan trọng trong các ngành và ứng dụng khác nhau. XML là ngôn ngữ đánh dấu phổ biến được sử dụng để lưu trữ và sắp xếp dữ liệu có cấu trúc theo định dạng phân cấp. Trích xuất thông tin từ các tài liệu XML là điều cần thiết cho các doanh nghiệp để thực hiện các hoạt động phân tích dữ liệu và truy xuất thông tin trên dữ liệu. Trong bài viết này, chúng ta sẽ khám phá cách trích xuất văn bản từ tài liệu XML trong Java bằng cách sử dụng GroupDocs.Parser Cloud SDK cho Java.
Các chủ đề sau đây sẽ được đề cập trong bài viết này:
- Java REST API để phân tích tệp XML và cài đặt SDK
- Cách trích xuất tất cả văn bản từ tệp XML trong Java bằng API REST
Java REST API để phân tích cú pháp cài đặt SDK và tệp XML
GroupDocs.Parser Cloud SDK for Java là một giải pháp mạnh mẽ, thân thiện với người dùng và toàn diện để trích xuất văn bản từ các định dạng tài liệu khác nhau một cách dễ dàng, bao gồm cả XML. Với các API toàn diện, bạn có thể dễ dàng trích xuất văn bản, siêu dữ liệu, hình ảnh và các thông tin khác từ hơn 50 định dạng tài liệu. SDK có thể được tích hợp vào một ứng dụng dựa trên Java để đơn giản hóa quy trình phát triển của bạn và nâng cao năng suất.
Bạn có thể tải xuống tệp JAR của API hoặc cài đặt nó bằng Maven bằng cách thêm kho lưu trữ và phần phụ thuộc sau vào tệp pom.xml của dự án:
Kho lưu trữ Maven:
<repository>
<id>groupdocs-artifact-repository</id>
<name>GroupDocs Artifact Repository</name>
<url>https://repository.groupdocs.cloud/repo</url>
</repository>
Phụ thuộc Maven:
<dependency>
<groupId>com.groupdocs</groupId>
<artifactId>groupdocs-parser-cloud</artifactId>
<version>23.3</version>
<scope>compile</scope>
</dependency>
Bây giờ, bạn cần đăng ký để có tài khoản dùng thử miễn phí hoặc mua gói đăng ký trên trang web GroupDocs và lấy khóa API của bạn. Sau khi bạn có Id ứng dụng khách và Bí mật ứng dụng khách, hãy thêm đoạn mã bên dưới vào ứng dụng dựa trên Java:
# Nhận client_id và client_secret của bạn từ https://dashboard.groupdocs.cloud sau khi đăng ký.
String ClientId = "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx";
String ClientSecret = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
String MyStorage = "test-internal-storage";
Configuration configuration = new Configuration(ClientId, ClientSecret);
Cách trích xuất tất cả văn bản từ tệp XML trong Java bằng API REST
Để trích xuất văn bản từ tài liệu XML trong Java bằng GroupDocs.Parser Cloud SDK cho Java, hãy làm theo các bước sau:
- Tải lên tệp XML lên đám mây
- Trích xuất văn bản từ XML bằng Java
Tải tệp lên
Đầu tiên, tải tài liệu XML lên đám mây bằng cách sử dụng mã ví dụ dưới đây:
package com.groupdocsdev.classes;
import java.io.File;
import com.groupdocs.cloud.parser.api.FileApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.UploadFileRequest;
// Tải tệp lên Cloud Storage bằng Java
public class App {
public static void main(String[] args) {
FileApi apiInstance = new FileApi(configuration);
try {
File fileStream = new File("H:\\groupdocs-cloud-data\\input-sample-file.xml");
UploadFileRequest request = new UploadFileRequest("java-testing\\input-sample-file.xml", fileStream, MyStorage);
FilesUploadResult response = apiInstance.uploadFile(request);
System.out.println("Expected response type is FilesUploadResult: " + response.getUploaded().size());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Do đó, tệp XML đã tải lên sẽ có sẵn trong phần tệp của trang tổng quan của bạn trên đám mây.
Phân tích tệp XML bằng Java
Dưới đây là các bước và một đoạn mã ví dụ trình bày cách trích xuất văn bản từ tài liệu XML trong Java bằng cách sử dụng GroupDocs.Parser Cloud SDK cho Java:
- Đầu tiên, nhập các lớp cần thiết vào tệp Java của bạn.
- Thứ hai, tạo một thể hiện của lớp ParseApi.
- Thứ ba, tạo một thể hiện của lớp FileInfo.
- Tiếp theo, đặt đường dẫn đến tệp XML làm đầu vào.
- Sau đó, tạo một thể hiện của lớp TextOptions().
- Tiếp theo, gán fileInfo cho phương thức setFileInfo.
- Bây giờ, hãy tạo một thể hiện của lớp TextRequest() và truyền tham số TextOptions.
- Cuối cùng, nhận kết quả bằng cách gọi phương thức ParseApi.text() và truyền tham số TextRequest.
Mẫu mã sau đây cho biết cách trích xuất văn bản và phân tích cú pháp tài liệu XML trong Java bằng API REST:
package com.groupdocsdev.classes;
import com.groupdocs.cloud.parser.api.ParseApi;
import com.groupdocs.cloud.parser.client.ApiException;
import com.groupdocs.cloud.parser.client.Configuration;
import com.groupdocs.cloud.parser.model.FileInfo;
import com.groupdocs.cloud.parser.model.*;
import com.groupdocs.cloud.parser.model.requests.TextRequest;
// Cách trích xuất văn bản từ tệp XML trong Java.
public class App {
public static void main(String[] args) {
// Tạo một phiên bản của Parse API
ParseApi apiInstance = new ParseApi(configuration);
try {
// Chuẩn bị cài đặt
FileInfo fileInfo = new FileInfo();
fileInfo.setFilePath("java-testing/input-sample-file.xml");
TextOptions options = new TextOptions();
options.setFileInfo(fileInfo);
TextRequest request = new TextRequest(options);
TextResult response = apiInstance.text(request);
// Nhận đường dẫn tệp đầu ra
System.out.println("Output file path: " + response.getPath());
} catch (ApiException e) {
System.err.println("Exception while calling FileApi:");
e.printStackTrace();
}
}
}
Bạn có thể thấy đầu ra trong hình dưới đây:
Trình phân tích cú pháp XML trực tuyến miễn phí
Cách tốt nhất để trích xuất văn bản từ XML trực tuyến miễn phí là gì? Vui lòng dùng thử phần mềm phân tích cú pháp XML trực tuyến để loại bỏ các tệp XML. Công cụ Trình phân tích cú pháp XML này được phát triển bằng cách sử dụng thư viện trình phân tích cú pháp Java đã đề cập ở trên.
Phần kết luận
Tóm lại, các nhà phát triển có thể đơn giản hóa quy trình trích xuất dữ liệu và truy cập dữ liệu một cách hiệu quả trong các tài liệu XML bằng GroupDocs.Parser Cloud SDK cho Java. Sau đây là những gì bạn đã học được từ bài viết này:
- cách trích xuất tất cả văn bản từ tài liệu XML trong Java bằng API REST;
- lập trình tải tệp XML lên đám mây bằng Java;
- và công cụ trích xuất XML trực tuyến để phân tích các tài liệu XML.
Ngoài ra, bạn có thể tìm hiểu thêm về GroupDocs.Parser Cloud API bằng cách sử dụng tài liệu. Chúng tôi cũng cung cấp phần Tham khảo API cho phép bạn hình dung và tương tác trực tiếp với các API của chúng tôi thông qua trình duyệt. Mã nguồn hoàn chỉnh của Java SDK có sẵn miễn phí trên Github.
Cuối cùng, chúng tôi tiếp tục viết các bài blog mới trên các định dạng tệp khác nhau và phân tích cú pháp bằng API REST. Vì vậy, vui lòng liên hệ để cập nhật thông tin mới nhất.
Đặt một câu hỏi
Trong trường hợp bạn có bất kỳ thắc mắc hoặc nhầm lẫn nào về trình phân tích cú pháp dữ liệu XML, vui lòng liên hệ với chúng tôi qua diễn đàn của chúng tôi.
câu hỏi thường gặp
Làm cách nào để trích xuất tất cả văn bản từ tệp XML bằng Java?
Trước tiên, bạn khởi tạo lớp ParserApi và đặt thông tin xác thực API của chúng tôi bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java. Sau đó, tạo một đối tượng ExtractOptions và chỉ định tệp tài liệu XML bằng FileInfo. Cuối cùng, gọi phương thức trích xuất, chuyển vào các tùy chọn và truy xuất văn bản được trích xuất bằng phương thức getText.
Làm cách nào để phân tích cú pháp các tài liệu XML bằng Java?
Bạn có thể phân tích cú pháp một tệp XML bằng cách sử dụng GroupDocs.Parser Cloud SDK for Java trong các ứng dụng Java của mình. SDK mạnh mẽ này cung cấp một cách hiệu quả và đơn giản để trích xuất dữ liệu từ các tệp XML trong Java.
Xem thêm
Dưới đây là một số bài viết liên quan mà bạn có thể thấy hữu ích:
- Trích xuất hình ảnh từ tệp PDF trong Java bằng API REST
- Phân tích cú pháp tài liệu – Trích xuất văn bản từ tệp PDF trong Java
- Trích xuất dữ liệu từ PDF bằng API REST trong Node.js
- Phân tích tài liệu Word bằng API REST trong Python
- Trích xuất dữ liệu cụ thể từ PDF bằng Python
- Trích xuất hình ảnh từ tài liệu PDF bằng Python
- Cách trích xuất văn bản từ PDF bằng Python
- Trích xuất hình ảnh từ tài liệu Word bằng Java