
Mở khóa văn bản từ PDF là điều cần thiết cho việc lập chỉ mục nội dung, tự động hóa và phân tích dữ liệu. Với GroupDocs.Parser Cloud SDK cho Node.js, bạn có thể lập trình trích xuất văn bản thuần túy hoặc có cấu trúc từ các file PDF thông qua một API RESTful đơn giản — mà không cần dựa vào các công cụ nặng nề hoặc phân tích thủ công.
Tại sao cần trích xuất văn bản từ PDF?
Việc trích xuất văn bản từ PDF là rất quan trọng cho:
- Xây dựng quản lý tài liệu hoặc quy trình OCR.
- Tự động hóa việc thu thập dữ liệu từ hợp đồng, hóa đơn và báo cáo.
- Bật tìm kiếm toàn văn cho các kho lưu trữ kỹ thuật số.
- Làm sạch và cấu trúc nội dung cho các mô hình AI/ML.
Hãy đi sâu vào các chủ đề sau:
- API REST trích xuất văn bản
- Làm thế nào để trích xuất văn bản từ PDF bằng Node.js
- Trích xuất văn bản từ PDF qua cURL
- Trình trích xuất văn bản trực tuyến
API REST trích xuất văn bản
SDK GroupDocs.Parser Cloud cho Node.js là một lớp bọc nhẹ, hiệu suất cao để tương tác với API REST Cloud của GroupDocs.Parser. Nó cho phép các nhà phát triển trích xuất nội dung có cấu trúc hoặc không có cấu trúc, chẳng hạn như:
- Văn bản (toàn bộ tài liệu, các trang cụ thể, hoặc các khu vực được chọn)
- Hình ảnh
- Metadata
- Các trường tài liệu
- Dữ liệu có cấu trúc từ bảng hoặc biểu mẫu
Nó hỗ trợ nhiều định dạng - bao gồm PDF, Word, Excel, PowerPoint, MSG, ZIP, và nhiều hơn nữa.
Điều kiện tiên quyết Cài đặt GroupDocs.Parser Cloud SDK cho Node.js:
npm install groupdocs-parser-cloud
Tạo một tài khoản tại GroupDocs.Cloud Dashboard để lấy Client ID và Client Secret của bạn để xác thực. Để biết thêm thông tin, vui lòng xem bài viết này article.
Cách trích xuất văn bản từ PDF bằng Node.js
Làm theo các bước này để trích xuất văn bản từ PDF bằng cách sử dụng SDK Node.js.
Bước 1: Thiết lập Cấu hình:
const { ParserApi, Configuration, ImagesRequest, FileInfo, ImagesOptions } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
Bước 2: Cấu hình đầu vào tệp PDF: Khởi tạo một đối tượng của lớp TextRequest và chuyển thể hiện của lớp TextOptions.
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
Bước 3: Trích xuất văn bản từ PDF: Gọi phương thức text, và nó sẽ trả về nội dung văn bản thuần túy của PDF của bạn.
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
// Để biết thêm ví dụ, vui lòng truy cập https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-node
const { Configuration, ParserApi, TextOptions, TextRequest, FileInfo } = require("groupdocs-parser-cloud");
const config = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
const parserApi = new ParserApi(config);
const fileInfo = new FileInfo();
fileInfo.filePath = "sample.pdf";
const options = new TextOptions();
options.fileInfo = fileInfo;
const request = new TextRequest(options);
parserApi.text(request).then(response => {
console.log("Extracted text content:");
console.log(response.text);
}).catch(err => {
console.error("Error extracting text:", err);
});
Bạn có thể xem đầu ra của mẫu code ở trên trong hình bên dưới:

Extract Text from PDF via cURL
Nếu bạn thích các thao tác qua dòng lệnh hoặc muốn tích hợp vào một kịch bản? Bạn có thể trích xuất văn bản bằng cách sử dụng cURL với GroupDocs.Parser REST API.
Bước 1 – Tạo Mã Token Truy Cập:
curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"
Bước 2 – Trích xuất hình ảnh qua REST API:
curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-H "Content-Type: application/json" \
-d
"{
\"FileInfo\":
{
\"FilePath\": \"Binder1.pdf\",
\"StorageName\": \"internal\"
},
\"StartPageNumber\": 0,
\"CountPagesToExtract\": 1
}"
- Thay thế bằng cái bạn đã tạo.
Lợi ích của việc sử dụng cURL với GroupDocs.Parser API
- Không cần SDK: Sử dụng REST trực tiếp để tích hợp nhanh chóng.
- Nền tảng vô nhiễm: Hoạt động với bất kỳ hệ điều hành hoặc ngôn ngữ nào.
- Lý tưởng cho các Pipelines CI/CD: Tự động hóa việc trích xuất văn bản trong các môi trường DevOps.
- Nhẹ: Không cần cài đặt ngoài cURL.
Online Text Extractor
Nếu bạn đang tìm kiếm một giải pháp không mã, hãy sử dụng công cụ trực tuyến miễn phí PDF Text Extractor được cung cấp bởi GroupDocs.Parser Cloud.

Kết luận
GroupDocs.Parser Cloud SDK cho Node.js giúp bạn dễ dàng trích xuất văn bản từ PDF, cho dù bạn cần phân tích toàn bộ nội dung, khai thác dữ liệu, hay tự động hóa tài liệu. Với hỗ trợ cho các cuộc gọi RESTful và tích hợp cURL, API này lý tưởng cho việc xây dựng các ứng dụng xử lý tài liệu hiện đại, có khả năng mở rộng trong Node.js hoặc các môi trường khác.
📚 Tài nguyên bổ sung
Câu hỏi thường gặp – FAQs
Làm thế nào để tôi trích xuất hình ảnh từ Word?
Bạn có thể sử dụng GroupDocs.Parser Cloud SDKs để trích xuất văn bản từ các tệp PDF một cách tự động. Xin vui lòng truy cập link để biết thêm chi tiết.
Mô hình định giá là gì?
Chúng tôi cung cấp một mô hình giá thanh toán một lần khi bạn sử dụng. Để biết thêm thông tin, vui lòng truy cập pricing guide.