Cách phân chia tập huấn luyện – tập kiểm tra

📊 Trong học máy, việc phân chia tập dữ liệu thành tập huấn luyện và tập kiểm tra là bước cực kỳ quan trọng để đánh giá khả năng khái quát hóa của mô hình. Dưới đây là các cách phổ biến để thực hiện điều này:


🧪 1. Train – test split (phân chia huấn luyện – kiểm tra) – Cách chia đơn giản nhất

Chia dữ liệu thành 2 phần. Ví dụ:

  • Training set: thường chiếm 70–80% dữ liệu
  • Testing set: chiếm 20–30% còn lại
  • Dữ liệu được chọn ngẫu nhiên hoặc phân tầng (stratified) nếu dữ liệu không cân bằng.

📌 Ví dụ: Với 1000 mẫu, bạn có thể dùng 800 mẫu để huấn luyện và 200 mẫu để kiểm tra.


⚖️ Lưu ý khi chia dữ liệu

  • Không được để dữ liệu kiểm tra bị rò rỉ vào quá trình huấn luyện.
  • Dữ liệu không cân bằng (ví dụ: 90% là lớp A, 10% là lớp B) → nên dùng stratified sampling để giữ tỷ lệ lớp trong cả training và testing.
  • Với mô hình phức tạp như deep learning, nên ưu tiên nhiều dữ liệu cho training.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!