Skip to content

VI.3- tại sao cần giảm chiều

📌 Tại sao cần giảm chiều (Dimensionality Reduction) khi đã có thể lựa chọn đặc trưng (Feature Selection)?

Hai kỹ thuật này đều nhằm xử lý dữ liệu có nhiều đặc trưng, nhưng chúng không thay thế hoàn toàn cho nhau. Ngay cả khi ta có thể lựa chọn đặc trưng, việc giảm chiều vẫn cần thiết trong nhiều tình huống.


🔎 Khác biệt cơ bản

  • Feature Selection (Lựa chọn đặc trưng):
    • Giữ lại một tập con các đặc trưng gốc quan trọng nhất.
    • Loại bỏ đặc trưng dư thừa hoặc không liên quan.
    • Kết quả vẫn là đặc trưng nguyên bản → dễ giải thích.
  • Dimensionality Reduction (Giảm chiều):
    • Biến đổi đặc trưng gốc thành đặc trưng mới (ví dụ: PCA, LDA).
    • Các đặc trưng mới thường là tổ hợp tuyến tính hoặc phi tuyến của đặc trưng cũ.
    • Khó giải thích trực tiếp nhưng thường nén thông tin tốt hơn.

⚙️ Vì sao cần giảm chiều?

  1. Khi tất cả đặc trưng đều quan trọng nhưng có tương quan cao:
    • Feature selection sẽ loại bỏ một số đặc trưng, có thể mất thông tin.
    • Giảm chiều (như PCA) giữ lại thông tin chính bằng cách gộp đặc trưng tương quan thành trục mới.
  2. Nén dữ liệu để tăng hiệu quả tính toán:
    • Với dữ liệu cực lớn (hàng nghìn đặc trưng), giảm chiều giúp mô hình chạy nhanh hơn.
    • Feature selection có thể vẫn giữ số chiều cao nếu nhiều đặc trưng đều quan trọng.
  3. Loại bỏ đa cộng tuyến (multicollinearity):
    • Trong hồi quy, các đặc trưng tương quan mạnh gây bất ổn hệ số.
    • Giảm chiều (PCA) tạo ra đặc trưng độc lập → ổn định hơn.
  4. Phát hiện cấu trúc tiềm ẩn:
    • Giảm chiều giúp khám phá mẫu ẩn trong dữ liệu (ví dụ: PCA tìm trục chính).
    • Feature selection không thể tạo ra đặc trưng mới để biểu diễn cấu trúc này.

🌍 Ví dụ minh họa

  • Dữ liệu hình ảnh (MNIST):
    • Mỗi ảnh có 784 pixel (28×28).
    • Feature selection không hợp lý vì pixel nào cũng có thể quan trọng.
    • Giảm chiều bằng PCA → chỉ giữ vài chục thành phần chính nhưng vẫn giữ được hình dạng chữ số.

📌 Tóm lại

  • Feature selection: tốt khi muốn giữ nguyên đặc trưng gốc, dễ giải thích, loại bỏ nhiễu.
  • Dimensionality reduction: cần thiết khi tất cả đặc trưng đều quan trọng, dữ liệu có tương quan cao, hoặc cần nén dữ liệu để tăng hiệu quả.
  • Trong thực tế, người ta thường kết hợp cả hai: chọn đặc trưng quan trọng trước, sau đó giảm chiều để tối ưu hóa mô hình.


Discover more from Cùng Học Cùng Mơ

Subscribe to get the latest posts sent to your email.

Leave a Reply

error: Content is protected !!