Học không có giám sát giống như thám tử tự mò mẫm manh mối mà không có ai chỉ dẫn. Đôi khi nó tìm ra những điều bất ngờ mà chính bạn cũng không nghĩ tới! 😎
Học không có giám sát (Unsupervised Learning) là một kiểu học máy (machine learning) nơi mô hình tự học từ dữ liệu không có nhãn (unlabeled data). Tức là, bạn ném cho máy một đống dữ liệu mà không nói trước dữ liệu đó là gì, và máy sẽ tự tìm ra cấu trúc, mẫu hình hoặc mối quan hệ ẩn trong đó. Giống như bảo một đứa trẻ tự khám phá cách sắp xếp đồ chơi mà không hướng dẫn cụ thể!





Ví dụ:
- Hình dung bạn đưa cho một chú robot một rổ đầy táo, cam, chuối trộn lẫn, nhưng không nói quả nào là quả gì. Robot sẽ tự quan sát màu sắc, kích thước, hình dạng và phân loại chúng thành các nhóm giống nhau (ví dụ: nhóm táo đỏ, nhóm cam tròn, nhóm chuối dài). Nó không biết tên, nhưng biết cách “gom cụm”!
- Công thức đơn giản: Dữ liệu không nhãn → Tự tìm mẫu → Phân nhóm hoặc khám phá.
Ví dụ thực tế:
- Phân cụm (Clustering): Phân nhóm khách hàng dựa trên thói quen mua sắm (không biết trước nhóm nào là gì).
- Giảm chiều dữ liệu (Dimensionality Reduction): Nén dữ liệu phức tạp (như ảnh) thành dạng đơn giản hơn để dễ xử lý.
- Khám phá luật kết hợp (Association Rules): Tìm mối quan hệ như “người mua bỉm thường mua sữa” trong dữ liệu siêu thị.