Chuyển đổi tài liệu Word (DOC, DOCX) sang định dạng văn bản là một yêu cầu phổ biến trong việc trích xuất dữ liệu, phân loại hoặc quy trình tự động. Với sự trợ giúp của .NET Cloud SDK, bạn có thể dễ dàng trích xuất văn bản từ tài liệu Word để xử lý ngôn ngữ tự nhiên, phân tích nội dung hoặc lưu trữ dữ liệu văn bản lớn mà không phụ thuộc vào Microsoft Word.
Chuyển đổi API Word thành văn bản
SDK GroupDocs.Parser Cloud SDK for .NET cung cấp các công cụ mạnh mẽ để phân tích, trích xuất và chuyển đổi tài liệu Word thành định dạng văn bản. Nó hỗ trợ các định dạng tài liệu phổ biến như DOC, DOCX và các định dạng khác, cung cấp cho các nhà phát triển một cách nhanh chóng để xây dựng các bộ chuyển đổi từ tài liệu sang văn bản hoặc từ docx sang txt trong các ứng dụng .NET.
Điều kiện tiên quyết
- Đăng ký tại GroupDocs Cloud Dashboard.
- Lấy Client ID và Client Secret của bạn. Để biết thêm thông tin, vui lòng truy cập this article.
- Cài đặt .NET 6.0 hoặc phiên bản mới hơn và Visual Studio.
- Cài đặt SDK từ NuGet Packages:
NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0
Chuyển đổi DOCX sang TXT Sử dụng C#
Đây là một ví dụ đơn giản minh họa cách chuyển đổi DOCX sang TXT hoặc trích xuất văn bản từ tài liệu Word bằng cách sử dụng GroupDocs.Parser Cloud SDK cho .NET.
1.: Khởi tạo cấu hình API
var config = new Configuration
{
ClientId = "YOUR_CLIENT_ID",
ClientSecret = "YOUR_CLIENT_SECRET"
};
var parserApi = new ParserApi(config);
2.: Gọi phương thức Parse để trích xuất nội dung văn bản của tài liệu. Khởi tạo một đối tượng của đối tượng ImagesRequest nơi chúng ta truyền thể hiện của lớp ImagesOptions như một tham số.
var response = parserApi.Parse(new ParseRequest("sample.docx"));
3.: Lưu văn bản đã trích xuất dưới dạng tệp .txt trên máy tính để xử lý sau.
File.WriteAllText("output.txt", response.Text);
- 💡 Bạn cũng có thể trích xuất văn bản từ các trang hoặc đoạn cụ thể bằng cách thiết lập bộ lọc trong tham số ParseOptions.
// Để biết thêm ví dụ, vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet
var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);
// Load input Word document
using (var fileStream = OpenRead("input.docx"))
{
// upload the input Word document to cloud storage
var uploadRequest = new Requests.UploadFileRequest("sample.docx", fileStream);
fileApi.UploadFile(uploadRequest);
}
var options = new TextOptions
{
FileInfo = new FileInfo { FilePath = "sample.docx" }
};
var request = new TextRequest(options);
// extract text from input Word document
var response = parseApi.Text(request);
Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);
Trích xuất văn bản từ Word qua cURL
Nếu bạn thích các thao tác từ dòng lệnh, bạn có thể sử dụng REST API trực tiếp thông qua cURL để chuyển đổi DOC hoặc DOCX thành văn bản trực tuyến.
Bước 1: Nhận Token Truy Cập:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Bước 2: Chuyển đổi DOCX sang TXT:
curl -X POST "https://api.groupdocs.cloud/v1.0/parser/{inputFile}/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "{outputFile}.txt"
Thay thế {inputFile} bằng tên tệp Word của bạn và {outputFile} bằng tên tệp TXT mong muốn để lưu cục bộ.
Bộ chuyển đổi DOCX sang TXT miễn phí trực tuyến
Nếu bạn muốn nhanh chóng thử Word to text conversion online, hãy xem Free DOCX to TXT Converter. Nó cho phép bạn tải lên và ngay lập tức chuyển đổi bất kỳ tệp Word nào sang định dạng văn bản trực tiếp trong trình duyệt của bạn — không cần cài đặt hoặc lập trình.

Tóm tắt
Chúng tôi đã khám phá rằng .NET Cloud SDK của chúng tôi cung cấp một giải pháp đáng tin cậy dựa trên đám mây để trích xuất văn bản từ các tài liệu Word và chuyển đổi chúng thành định dạng TXT. Nó đơn giản hóa việc trích xuất dữ liệu, phân tích nội dung và tích hợp với hệ thống xử lý tài liệu doanh nghiệp.
Tại sao nên sử dụng GroupDocs.Parser Cloud?
- Hỗ trợ định dạng DOC và DOCX.
- Dễ dàng tích hợp với các ứng dụng .NET.
- 100% Dựa trên đám mây — không cần Microsoft Word.
- Tạo đầu ra TXT sạch sẵn sàng cho việc xử lý hoặc lưu trữ dữ liệu.
Câu hỏi thường gặp (FAQs)
- Có thể chuyển đổi DOCX sang TXT bằng cách sử dụng C# không?
- Có. SDK cho phép bạn trích xuất và lưu văn bản từ tài liệu Word trực tiếp ở định dạng TXT.
- Nó có hỗ trợ cả tệp DOC và DOCX không?
- Có. Cả hai định dạng tệp đều được hỗ trợ hoàn toàn cho việc chuyển đổi và trích xuất văn bản.
- Microsoft Word có cần thiết cho chuyển đổi này không?
- Không. Việc chuyển đổi được thực hiện hoàn toàn trên nền tảng GroupDocs Cloud.
- Tôi có thể chọn các phần hoặc trang cụ thể để trích xuất không?
- Có. Bạn có thể xác định phạm vi trang hoặc khu vực để trích xuất văn bản một phần.
