Skip to content

V.3d hồi quy Logistic: quá khớp/ lựa chọn đặc trưng

Hồi quy Logistic là mô hình mạnh mẽ cho phân loại nhị phân, nhưng nếu không kiểm soát tốt, nó dễ bị quá khớp (overfitting) khi số đặc trưng nhiều hoặc dữ liệu nhiễu.


🔎 Quá khớp trong hồi quy Logistic

  • Định nghĩa: Mô hình học quá chi tiết từ dữ liệu huấn luyện, kể cả nhiễu, dẫn đến dự đoán kém trên dữ liệu mới.
  • Nguyên nhân:
  • Số lượng đặc trưng quá lớn so với số mẫu.
  • Có nhiều đặc trưng không liên quan hoặc trùng lặp.
  • Không có biện pháp điều chuẩn (regularization).
  • Hậu quả: Độ chính xác trên tập huấn luyện cao nhưng trên tập kiểm định/thử nghiệm lại thấp.

⚙️ Biện pháp giảm quá khớp

  1. Regularization (Điều chuẩn):
  • L1 (Lasso): ép nhiều hệ số về 0 → tự động chọn đặc trưng.
  • L2 (Ridge): giảm độ lớn hệ số → tránh hệ số quá cực đoan.
  • Elastic Net: kết hợp L1 và L2.
  1. Giảm số đặc trưng:
  • Loại bỏ đặc trưng ít liên quan (feature selection).
  • Dùng kỹ thuật giảm chiều (PCA, SVD).
  1. Cross-validation:
  • Kiểm tra mô hình trên nhiều tập con để chọn tham số tối ưu.

🔎 Lựa chọn đặc trưng (Feature Selection)

  • Filter methods: chọn đặc trưng dựa trên thống kê (ví dụ: kiểm định (\chi^2), Information Gain).
  • Wrapper methods: dùng thuật toán tìm kiếm (Forward Selection, Backward Elimination) để chọn tập đặc trưng tốt nhất.
  • Embedded methods: lựa chọn đặc trưng xảy ra trong quá trình huấn luyện (ví dụ: L1 regularization trong Logistic Regression).

🌍 Ví dụ thực tế

  • Phân loại email spam:
  • Đặc trưng: tần suất từ khóa, độ dài email, số lượng liên kết.
  • Nếu dùng quá nhiều từ khóa hiếm → dễ quá khớp.
  • Giải pháp: dùng L1 regularization để chỉ giữ lại những từ khóa quan trọng nhất.

👉 Tóm lại:

  • Quá khớp là vấn đề phổ biến trong hồi quy Logistic khi số đặc trưng nhiều.
  • Lựa chọn đặc trưng + regularization là chìa khóa để xây dựng mô hình gọn nhẹ, chính xác và tổng quát tốt.

Discover more from Cùng Học Cùng Mơ

Subscribe to get the latest posts sent to your email.

Leave a Reply

error: Content is protected !!