Chuyển tới nội dung

VI.2-tại sao cần lựa chọn đặc trưng

Tại sao cần lựa chọn đặc trưng khi đã có thể giảm chiều?

Trong học máy, cả lựa chọn đặc trưng (feature selection)giảm chiều (dimensionality reduction) đều nhằm mục tiêu xử lý dữ liệu có nhiều đặc trưng, nhưng chúng khác nhau về bản chất và mục tiêu. Vì vậy, ngay cả khi có thể giảm chiều, ta vẫn cần lựa chọn đặc trưng.


🔎 Sự khác biệt cơ bản

  • Lựa chọn đặc trưng (Feature Selection):
    • Giữ lại một tập con các đặc trưng gốc quan trọng nhất.
    • Loại bỏ đặc trưng dư thừa, nhiễu, hoặc không liên quan.
    • Kết quả vẫn là các đặc trưng nguyên bản, dễ giải thích.
  • Giảm chiều (Dimensionality Reduction):
    • Biến đổi đặc trưng gốc thành đặc trưng mới (ví dụ: PCA, LDA).
    • Các đặc trưng mới thường là tổ hợp tuyến tính của đặc trưng cũ.
    • Khó giải thích trực tiếp ý nghĩa của đặc trưng mới.

⚙️ Vì sao cần lựa chọn đặc trưng?

  1. Tính dễ giải thích (Interpretability):
    • Trong nhiều lĩnh vực (y tế, tài chính), người ta cần biết đặc trưng nào quan trọng.
    • Giảm chiều (như PCA) tạo ra đặc trưng mới → khó giải thích cho chuyên gia.
  2. Loại bỏ nhiễu:
    • Feature selection loại bỏ đặc trưng không liên quan, giúp mô hình tổng quát tốt hơn.
    • Giảm chiều không loại bỏ nhiễu mà chỉ “trộn” chúng vào đặc trưng mới.
  3. Hiệu quả tính toán:
    • Giữ lại ít đặc trưng gốc giúp mô hình chạy nhanh hơn, đặc biệt với dữ liệu lớn.
    • Giảm chiều đôi khi vẫn giữ số chiều khá cao và tốn chi phí tính toán.
  4. Phù hợp với mô hình:
    • Một số mô hình (như Logistic Regression, Decision Tree) hoạt động tốt hơn khi đặc trưng gốc được chọn lọc.
    • Nếu dùng đặc trưng biến đổi (PCA), mô hình có thể mất khả năng giải thích.

🌍 Ví dụ minh họa

  • Y tế: Dự đoán bệnh dựa trên xét nghiệm máu.
    • Feature selection: chọn ra 5 chỉ số xét nghiệm quan trọng nhất.
    • Dimensionality reduction: tạo ra 5 “tổ hợp” từ hàng chục chỉ số → khó giải thích cho bác sĩ.

📌 Tóm lại

  • Giảm chiều giúp nén thông tin và xử lý dữ liệu phức tạp.
  • Lựa chọn đặc trưng giúp loại bỏ nhiễu, giữ nguyên ý nghĩa gốc, và dễ giải thích.
  • Trong thực tế, người ta thường kết hợp cả hai: trước tiên chọn đặc trưng quan trọng, sau đó giảm chiều để tối ưu hóa mô hình.

Gửi phản hồi

error: Content is protected !!