Thỉnh thoảng, các bản trình bày PowerPoint (PPTX, PPT) chứa thông tin văn bản quan trọng như tiêu đề, điểm chính và mô tả mà bạn có thể cần phân tích hoặc sử dụng lại. Thay vì sao chép văn bản thủ công, bài viết này hướng dẫn cách trích xuất văn bản từ các trang trình bày PowerPoint (PPT hoặc PPTX) một cách lập trình thông qua API REST .NET.

Tại sao trích xuất văn bản từ PowerPoint?

Việc trích xuất văn bản từ các slide PowerPoint rất hữu ích khi bạn muốn:

  • Retrieve content or notes from presentation slides for documentation.
  • Chỉ mục và tìm kiếm nội dung slide trong các hệ thống tri thức.
  • Thực hiện phân tích nội dung hoặc khai thác văn bản.
  • Tự động trích xuất văn bản PowerPoint số lượng lớn để lưu trữ hoặc báo cáo.

Bằng cách sử dụng GroupDocs.Parser Cloud, bạn có thể dễ dàng trích xuất nội dung văn bản từ các bài thuyết trình PowerPoint một cách an toàn trên đám mây, mà không cần yêu cầu PowerPoint trên hệ thống của họ.

API trích xuất văn bản PowerPoint

GroupDocs.Parser Cloud SDK for .NET là một API REST mạnh mẽ được thiết kế để trích xuất văn bản, siêu dữ liệu và dữ liệu có cấu trúc từ nhiều định dạng tài liệu khác nhau bao gồm PowerPoint, Word, Excel và PDF.

Prerequisites

Trước khi bạn bắt đầu, hãy chắc chắn rằng bạn đã:

  • Một GroupDocs Cloud account để lấy Client ID và Client Secret của bạn.
  • Cài đặt .NET 6.0 trở lên trên hệ thống của bạn.
  • Visual Studio hoặc một IDE tương thích khác.

Cài đặt SDK

Cài đặt gói qua NuGet:

NuGet\Install-Package GroupDocs.Parser-Cloud -Version 25.7.0

Trích xuất văn bản từ PPTX trong C# .NET

Làm theo các bước sau để trích xuất văn bản từ một bài trình bày PowerPoint một cách lập trình.

Bước 1 – Khởi tạo API

var configuration = new Configuration("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
var parserApi = new ParserApi(configuration);

Bước 2 – Đặt thông tin tệp

var fileInfo = new FileInfo { FilePath = "presentation.pptx" };
var options = new ParseOptions { FileInfo = fileInfo };
var request = new ParseRequest(options);

Bước 3 – Trích xuất văn bản từ các slide

var response = parserApi.Parse(request);
Console.WriteLine("Extracted Text: ");
Console.WriteLine(response.Text);
/ For further examples, please visit https://github.com/groupdocs-parser-cloud/groupdocs-parser-cloud-dotnet

var configuration = new Configuration("XXXXXXX-XXXXXXX-XXXXXX-55c38f4b7f22", "XXXXXXXXXXXX");
var parseApi = new ParseApi(configuration);
var fileApi = new FileApi(configuration);

// Load input PowerPoint document
using (var fileStream = OpenRead("input.pptx"))
{
    // upload the input PPT to cloud storage
    var uploadRequest = new Requests.UploadFileRequest("input.pptx", fileStream);
    fileApi.UploadFile(uploadRequest);
}

var options = new TextOptions
{
    FileInfo = new FileInfo { FilePath = "input.pptx" }
};

var request = new TextRequest(options);
// trích xuất văn bản từ bài thuyết trình PowerPoint
var response = parseApi.Text(request);

Console.WriteLine("Extracted Text:\n");
Console.WriteLine(response.Text);    

💡 Bạn có thể điều chỉnh yêu cầu để chỉ trích xuất văn bản từ các slide được chọn bằng cách định nghĩa số slide trong tham số ParseOptions.

Trích xuất văn bản PowerPoint bằng cURL

Nếu bạn thích làm việc với các lệnh gọi REST API trực tiếp, hãy sử dụng các lệnh cURL sau để trích xuất văn bản từ các tệp PowerPoint mà không cần viết mã.

Bước 1 – Nhận mã token truy cập

curl -X POST "https://api.groupdocs.cloud/connect/token" \
-d "grant_type=client_credentials&client_id=YOUR_CLIENT_ID&client_secret=YOUR_CLIENT_SECRET" \
-H "Content-Type: application/x-www-form-urlencoded"

Bước 2 – Trích xuất văn bản từ PowerPoint

curl -v -X POST "https://api.groupdocs.cloud/v1.0/parser/text" \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-H  "Content-Type: application/json" \
-d "{ \"FileInfo\": { \"FilePath\": \"slides.pptx\", \"StorageName\": \"internal\" } }"

Thay thế {ACCESSTOKEN} bằng mã thông báo đã nhận ở trên, và chỉ định tên tệp PowerPoint của bạn dưới FilePath.

Thử Trình Trích Xuất Văn Bản PowerPoint Trực Tuyến

Bạn cũng có thể sử dụng Trình trích xuất văn bản PowerPoint trực tuyến miễn phí của chúng tôi để thử nghiệm chức năng API mà không cần viết mã. Tải lên tệp PowerPoint của bạn và ngay lập tức tải xuống nội dung văn bản đã được trích xuất dưới định dạng văn bản thuần.

trích xuất văn bản từ powerpoint trực tuyến

Trích xuất văn bản từ PowerPoint trực tuyến bằng GroupDocs.Parser Cloud.

Kết luận

Trong hướng dẫn này, bạn đã học cách trích xuất văn bản từ các bài thuyết trình PowerPoint bằng cách sử dụng GroupDocs.Parser Cloud SDK cho .NET. Cách tiếp cận này cho phép các nhà phát triển tự động hóa việc trích xuất văn bản PowerPoint, giúp lý tưởng cho việc xây dựng phân tích nội dung, lập chỉ mục hoặc giải pháp tìm kiếm.

Lợi thế chính:

  • Trích xuất văn bản từ các slide PPT và PPTX một cách dễ dàng.
  • Không cần cài đặt PowerPoint.
  • Được cung cấp hoàn toàn trên đám mây với tích hợp REST API.
  • Xuất dữ liệu văn bản sạch, có cấu trúc để xử lý thêm.

Câu hỏi thường gặp – FAQs

  1. Tôi có thể trích xuất văn bản từ các tệp PPT và PPTX không? Có. API hỗ trợ cả định dạng PPT cũ và định dạng PPTX hiện đại.

  2. Tôi có cần cài đặt Microsoft PowerPoint không? Không. GroupDocs.Parser Cloud hoạt động độc lập với phần mềm máy tính để bàn.

  3. Tôi có thể trích xuất văn bản chỉ từ các slide cụ thể không? Có. Bạn có thể xác định số trang hoặc dải trang trong tùy chọn yêu cầu của bạn.

  4. Định dạng của văn bản được trích xuất là gì? Văn bản được trả về dưới dạng văn bản đơn giản (.txt), phù hợp cho việc phân tích hoặc lập chỉ mục.

  5. Có phiên bản miễn phí nào có sẵn để thử nghiệm không? Có. Bạn có thể tạo một tài khoản dùng thử miễn phí và thực hiện tối đa 150 gọi API mỗi tháng.

Liên kết hữu ích

Các bài viết liên quan