Skip to content

Học vẹt (overfitting) và kiểm tra chéo (cross validation) qua câu chuyện kế hoạch siêu bí mật của Khoa

Spread the love

Câu chuyện về cậu học sinh Khoa là một phép ẩn dụ đơn giản nhưng chính xác cho khái niệm overfitting (học vẹt) trong học máy và cách cross-validation (kiểm tra chéo) được sử dụng để ngăn chặn nó.

Dưới đây là phân tích kỹ thuật hơn về cách các yếu tố trong câu chuyện tương ứng với các khái niệm học máy.

1. Các Thành phần Cốt lõi của Phép ẩn dụ

Yếu tố trong TruyệnKhái niệm Kỹ thuật trong Học máy
Khoa, cậu học sinhMô hình Học máy (Machine Learning Model) (ví dụ: mạng nơ-ron, cây quyết định).
Toàn bộ sách giáo khoaToàn bộ Tập dữ liệu (Dataset) có sẵn. Đây là tất cả dữ liệu bạn có cho dự án.
Đề thi năm ngoáiTập huấn luyện (Training Set). Đây là tập hợp con của dữ liệu mà mô hình “học” để tìm ra các quy luật.
Đạt điểm tuyệt đối trong bài thi cũOverfitting (Học vẹt). Mô hình đã học thuộc lòng tập huấn luyện một cách hoàn hảo, bao gồm cả “nhiễu” và các đặc điểm riêng của nó, chứ không chỉ các quy luật tổng quát. Nó có sai số rất thấp trên tập huấn luyện.
Bài kiểm tra “thật”Tập kiểm tra (Test Set) hoặc dữ liệu thực tế, chưa từng thấy. Đây là dữ liệu mà mô hình chưa bao giờ gặp trước đây. Mục tiêu là để mô hình hoạt động tốt trên dữ liệu này.
“Cuộc phiêu lưu tri thức” của cô ThảoQuy trình Kiểm tra chéo (Cross-Validation).

2. Vấn đề: Overfitting (Sai lầm của Khoa)

Trong học máy, bạn huấn luyện một mô hình bằng cách cho nó xem một bộ dữ liệu (gọi là tập huấn luyện). Mô hình sẽ điều chỉnh các tham số bên trong của nó để đưa ra dự đoán tốt nhất có thể trên dữ liệu này.

Sai lầm của Khoa là cho rằng nếu cậu học thuộc lòng đáp án của đề thi năm ngoái thì cậu đã thực sự hiểu bài.

Trong kỹ thuật, điều này tương đương với việc một mô hình trở nên quá phức tạp và khớp một cách thái quá với dữ liệu huấn luyện. Nó học cả những “nhiễu” (noise) trong dữ liệu, chứ không chỉ “tín hiệu” (signal – tức là quy luật chung). Ví dụ, nó có thể học được rằng trong dữ liệu huấn luyện, mọi người tên “An” 30 tuổi đều mua một sản phẩm. Trên thực tế, đây có thể chỉ là sự trùng hợp ngẫu nhiên. Một mô hình bị overfitting sẽ dự đoán sai rằng tất cả những người tên An 30 tuổi trong tương lai cũng sẽ mua sản phẩm đó.

Kết quả là một mô hình trông có vẻ xuất sắc trên dữ liệu nó đã được huấn luyện (Khoa đạt điểm tuyệt đối trong bài thi thử) nhưng lại thất bại thảm hại khi gặp dữ liệu mới, chưa từng thấy (bài kiểm tra thật).


3. Giải pháp: K-Fold Cross-Validation (Phương pháp của cô Thảo)

Cô Thảo không chỉ cho Khoa làm một bài kiểm tra mới duy nhất. Cô đã kiểm tra cậu trên nhiều phần khác nhau của sách giáo khoa để có được một thước đo đáng tin cậy hơn về kiến thức thực sự của cậu. Đây chính xác là những gì K-Fold Cross-Validation (Kiểm tra chéo K-lần) thực hiện.

Đây là quy trình kỹ thuật, phản ánh câu chuyện:

  1. Chia dữ liệu (Phân chia sách giáo khoa):
    • Toàn bộ tập dữ liệu (cuốn sách giáo khoa) được xáo trộn và chia thành ‘k’ phần bằng nhau, được gọi là “folds“. Giả sử chúng ta chọn k=5. Tập dữ liệu bây giờ được chia thành 5 phần.
    • Trong câu chuyện, cô Thảo đã chia sách giáo khoa thành các chương khác nhau (giả sử 3 chương, vậy k=3).
  2. Lặp lại quá trình Huấn luyện/Kiểm tra (“Cuộc phiêu lưu tri thức”):Quy trình được lặp lại ‘k’ lần. Trong mỗi lần lặp, một “fold” khác nhau được chọn làm tập kiểm tra (validation set), và ‘k-1’ folds còn lại được sử dụng làm tập huấn luyện.
    • Lần lặp 1:
      • Huấn luyện: Mô hình được huấn luyện trên các Phần 2, 3, 4, và 5. (Khoa học tất cả các chương trừ Chương 1).
      • Kiểm tra: Hiệu suất của mô hình được kiểm tra trên Phần 1. (Khoa được kiểm tra kiến thức Chương 1). Điểm hiệu suất (ví dụ: độ chính xác) được ghi lại.
    • Lần lặp 2:
      • Huấn luyện: Mô hình được huấn luyện trên các Phần 1, 3, 4, và 5. (Khoa học tất cả các chương trừ Chương 2).
      • Kiểm tra: Mô hình được kiểm tra trên Phần 2. (Khoa được kiểm tra kiến thức Chương 2). Điểm số được ghi lại.
    • …và cứ thế cho tất cả ‘k’ phần.
  3. Lấy trung bình kết quả (Điểm số cuối cùng):
    • Sau ‘k’ lần lặp, bạn sẽ có ‘k’ điểm hiệu suất khác nhau.
    • Thước đo hiệu suất cuối cùng của mô hình là giá trị trung bình của ‘k’ điểm số này.
    • Điểm số trung bình cuối cùng này là một ước tính ổn định và đáng tin cậy hơn nhiều về cách mô hình sẽ hoạt động trên dữ liệu hoàn toàn mới, so với việc chỉ chia dữ liệu thành một cặp huấn luyện/kiểm tra duy nhất. Nó giúp bạn không bị đánh lừa bởi kết quả “may mắn” do gặp một tập kiểm tra dễ hoặc “không may” vì gặp một tập quá khó.

Bằng cách sử dụng kiểm tra chéo, cô Thảo đã xác nhận rằng Khoa chưa thực sự học bài, buộc cậu phải áp dụng một chiến lược tốt hơn. Tương tự, các nhà khoa học dữ liệu sử dụng kiểm tra chéo để có được một thước đo thực tế về hiệu suất của mô hình và đảm bảo nó có khả năng tổng quát hóa tốt để giải quyết các vấn đề trong thế giới thực.

Leave a Reply

Your email address will not be published. Required fields are marked *

error: Content is protected !!