
Nếu bạn cần trích xuất văn bản thuần túy hoặc có cấu trúc từ tài liệu Microsoft Word để tự động hóa, lập chỉ mục hoặc phân tích, GroupDocs.Parser Cloud SDK cho Node.js cung cấp một giải pháp RESTful đáng tin cậy. Chỉ với vài dòng mã, bạn có thể trích xuất nội dung từ .doc và .docx mà không cần cài đặt Microsoft Word hoặc sử dụng bất kỳ công cụ phía máy chủ nào.
- API trích xuất văn bản từ tài liệu Word
- Cách trích xuất văn bản từ Word sử dụng Node.js
- Trích xuất văn bản từ Word qua cURL
- Trình trích xuất văn bản từ Word trực tuyến
API trích xuất văn bản từ tài liệu Word
SDK GroupDocs.Parser Cloud cho Node.js là một lớp bao quanh API REST giúp đơn giản hóa việc trích xuất:
- Text (full document or selective pages).
- Bảng và dữ liệu có cấu trúc.
- Dữ liệu siêu và các trường nhúng.
- Các tệp đính kèm và hình ảnh.
Nó hỗ trợ nhiều định dạng khác nhau, bao gồm PDF, Word, Excel, PowerPoint, MSG, ZIP, và nhiều hơn nữa.
Các yêu cầu cần có
- Tạo một tài khoản tại GroupDocs.Cloud Dashboard.
- Lấy ID Khách Hàng và Bí Mật Khách Hàng.
- Cài đặt SDK:
npm install groupdocs-parser-cloud
Bạn có thể xem xét visiting bài viết sau đây để tìm hiểu thêm về, how to obtain your Client ID and Client Secret for authentication.
API Trích Xuất Văn Bản Từ Tài Liệu Word
Vui lòng làm theo các bước được cung cấp dưới đây để biết thông tin về cách trích xuất văn bản từ tài liệu Word bằng cách sử dụng SDK Node.js.
Bước 1: Khởi tạo cấu hình:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Bước 2: Thiết lập Thông tin Tệp và Tùy chọn Văn bản: Khởi tạo một đối tượng của lớp TextRequest và truyền vào thể hiện của lớp TextOptions.
const fileInfo = new FileInfo();
// path to your Word file
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Bước 3: Trích xuất văn bản từ tệp Word: Gọi phương thức text và nó sẽ trả về nội dung văn bản thuần từ tài liệu Word.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Để có thêm ví dụ, vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
// path of word document
fileInfo.filePath = "sample.docx";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Bạn có thể xem output của mẫu mã trên ở hình ảnh bên dưới:

Extract Text from Word via cURL
Nếu bạn thích các thao tác dòng lệnh hoặc muốn tích hợp vào một kịch bản? Bạn có thể trích xuất văn bản từ tài liệu Word bằng cách sử dụng cURL và GroupDocs.Parser REST API.
Bước 1 – Tạo Mã Truy Cập:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Bước 2 – Trích xuất văn bản qua cuộc gọi API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"sample.docx\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Thay thế bằng cái mà bạn đã tạo.
Lợi ích của việc sử dụng cURL với GroupDocs.Parser API
- ✅ Không cần cài đặt SDK.
- ✅ Tự động hóa đa nền tảng.
- ✅ Lý tưởng cho các tập lệnh shell & quy trình CI.
- ✅ Hiệu quả và nhẹ nhàng.
Trình trích xuất văn bản trực tuyến
Sử dụng Free Online Word Text Extractor của chúng tôi được cung cấp bởi GroupDocs.Parser Cloud nếu bạn thích một tùy chọn không cần mã.

Kết luận
Với GroupDocs.Parser Cloud SDK cho Node.js, bạn có thể dễ dàng trích xuất văn bản từ tài liệu Word (.docx hoặc .doc) để tự động hóa, lập chỉ mục hoặc khai thác dữ liệu. SDK và REST API cung cấp các tùy chọn linh hoạt và có thể mở rộng, cho dù bạn thích Node.js hay các lệnh cURL trực tiếp.
📚 Tài liệu bổ sung
Câu hỏi thường gặp – FAQs
- Có thể tôi trích xuất văn bản từ bảng DOCX không?
- Vâng. GroupDocs.Parser có thể trích xuất nội dung có cấu trúc, bao gồm các ô bảng và dữ liệu bố cục.
- Microsoft Word có cần thiết không?
- Không. API hoạt động trên đám mây và không phụ thuộc vào Microsoft Office.
- Mô hình định giá là gì?
- Chúng tôi cung cấp một mô hình giá thanh toán theo sử dụng duy nhất. Để biết thêm thông tin, vui lòng truy cập pricing guide.
- Tôi có thể có dùng thử miễn phí không?
- Có. Khi bạn đăng ký tài khoản dùng thử miễn phí, bạn có thể thực hiện 150 cuộc gọi API mỗi tháng miễn phí. Vui lòng truy cập pricing guide để biết thêm chi tiết.