Các loại Tổng bình phương (Sum of Squares)

Trong hồi quy, ta hay nghe tới tổng bình phương – như thể đây là món “gia vị” không thể thiếu trong món ăn thống kê. Nhưng mà tổng bình phương thì cũng có… họ hàng đấy!

🍛 Các loại tổng bình phương – thực đơn đủ vị

  • Tổng bình phương hồi quy (SSR)
    Đây là phần mà mô hình của bạn “đoán trúng” – kiểu như bạn thử đoán chiều cao người ta qua chiều dài xương đùi và… trúng gần hết! SSR chính là khoảng cách giữa giá trị dự đoán và giá trị trung bình, bình phương lên rồi cộng lại. Đây là phần bạn khoe với giáo viên: “Coi nè, mô hình em học tốt ghê chưa!”
  • Tổng bình phương sai số (SSE)
    Oái oăm thay, đây là phần mà mô hình “đoán trật lất” – kiểu như đoán chiều cao người ta mà nhầm sang… chiều dài tóc. Nó là khoảng cách giữa giá trị thực tế và giá trị dự đoán, bình phương lên rồi cộng lại. SSE chính là phần bạn giấu đi và nói “Ờ thì… dữ liệu hơi nhiễu đó mà.”
  • Tổng bình phương toàn phần (SST)
    Đây là tổng “combo” gồm cả phần đúng (SSR) và phần trật (SSE). SST là khoảng cách giữa giá trị thực tế và giá trị trung bình, bình phương lên rồi cộng lại. Nói cách khác: tổng bình phương toàn phần là toàn bộ “sân khấu” để mô hình thể hiện tài năng (và cả pha xử lý lỗi 😅).

Công thức thần chú: SST = SSR + SSE


Cụ thể hơn:

Trong hồi quy tuyến tính, các tổng bình phương (Sum of Squares) là các chỉ số quan trọng để đánh giá mô hình, đặc biệt khi tính toán R^2 (hệ số xác định). Có ba loại tổng bình phương chính: SST, SSR, và SSE. Dưới đây là giải thích chi tiết về từng loại và ý nghĩa của chúng:

1. Tổng bình phương tổng (SST – Total Sum of Squares)

Định nghĩa: SST đo lường tổng mức độ biến thiên của biến phụ thuộc (y) so với giá trị trung bình của nó (\bar{y}).
Công thức:
SST = \sum_{i=1}^n (y_i - \bar{y})^2
Trong đó:

  • y_i: Giá trị thực tế của biến phụ thuộc.
  • \bar{y}: Giá trị trung bình của biến phụ thuộc.
  • n: Số quan sát.

Ý nghĩa:

  • SST biểu thị tổng sự thay đổi của y trong tập dữ liệu.
  • Đây là thước đo tổng quát cho toàn bộ sự biến thiên, bao gồm cả phần được giải thích bởi mô hình và phần không được giải thích.
  • SST là cơ sở để so sánh với các tổng bình phương khác.

Ví dụ (dựa trên dữ liệu hồi quy tuyến tính):

Một công ty muốn phân tích xem chi phí quảng cáo (triệu đồng) ảnh hưởng thế nào đến doanh thu (triệu đồng). Dữ liệu lịch sử bao gồm chi phí quảng cáo (x) và doanh thu tương ứng (y).

Dữ liệu

Chi phí quảng cáo (x)Doanh thu (y)
13
25
37
48
510
  • Trung bình: \bar{y} = (3 + 5 + 7 + 8 + 10) / 5 = 6.6
  • Tính SST:
    SST = (3-6.6)^2 + (5-6.6)^2 + (7-6.6)^2 + (8-6.6)^2 + (10-6.6)^2 = 12.96 + 2.56 + 0.16 + 1.96 + 11.56 = 29.2

2. Tổng bình phương hồi quy (SSR – Sum of Squares due to Regression)

Định nghĩa: SSR đo lường phần biến thiên của biến phụ thuộc (y) được giải thích bởi mô hình hồi quy (tức là do các biến độc lập x).
Công thức:
SSR = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2
Trong đó:

  • \hat{y}_i: Giá trị dự đoán từ mô hình hồi quy.
  • \bar{y}: Giá trị trung bình của biến phụ thuộc.

Ý nghĩa:

  • SSR cho biết mô hình hồi quy giải thích được bao nhiêu sự biến thiên của y.
  • Giá trị SSR càng lớn, mô hình càng phù hợp (giải thích được nhiều biến thiên hơn).

Ví dụ:

  • Giả sử mô hình hồi quy từ ví dụ trước là y = 1.6 + 1.7x, các giá trị dự đoán (\hat{y}) là:
    • x = 1: \hat{y} = 1.6 + 1.7 \times 1 = 3.3
    • x = 2: \hat{y} = 5.0
    • x = 3: \hat{y} = 6.7
    • x = 4: \hat{y} = 8.4
    • x = 5: \hat{y} = 10.1
  • Tính SSR:
    SSR = (3.3-6.6)^2 + (5.0-6.6)^2 + (6.7-6.6)^2 + (8.4-6.6)^2 + (10.1-6.6)^2 = 10.89 + 2.56 + 0.01 + 3.24 + 12.25 = 28.95

3. Tổng bình phương sai số (SSE – Sum of Squared Errors)

Định nghĩa: SSE đo lường phần biến thiên của biến phụ thuộc (y) không được giải thích bởi mô hình hồi quy, tức là sai số giữa giá trị thực tế và giá trị dự đoán.
Công thức:
SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2
Trong đó:

  • y_i: Giá trị thực tế.
  • \hat{y}_i: Giá trị dự đoán.

Ý nghĩa:

  • SSE biểu thị mức độ sai lệch của mô hình so với dữ liệu thực tế.
  • SSE càng nhỏ, mô hình càng phù hợp (dự đoán gần với thực tế hơn).

Ví dụ:

  • Dùng giá trị thực tế (y) và dự đoán (\hat{y}) từ trên:
    SSE = (3-3.3)^2 + (5-5.0)^2 + (7-6.7)^2 + (8-8.4)^2 + (10-10.1)^2 = 0.09 + 0 + 0.09 + 0.16 + 0.01 = 0.35

Mối quan hệ giữa SST, SSR, và SSE

Mối quan hệ:
SST = SSR + SSE

  • SST là tổng biến thiên, được chia thành:
    • SSR: Phần biến thiên được giải thích bởi mô hình.
    • SSE: Phần biến thiên không được giải thích (sai số).
  • Trong ví dụ:
    SST = 29.2, \quad SSR = 28.95, \quad SSE = 0.35
    Kiểm tra: 28.95 + 0.35 = 29.2, thỏa mãn.

🌟 Tóm gọn

Nếu hồi quy là cuộc thi “Đoán đúng dữ liệu”, thì:

  • SSR là điểm bạn ghi được 🎯
  • SSE là điểm bạn bị trừ 😬
  • SST là điểm tối đa nếu bạn là “học sinh xuất sắc của năm” 🏆

🏠 Bài toán thực tế 2: Dự đoán giá nhà dựa trên diện tích

Giả sử ta có dữ liệu về giá bán của 5 căn nhà và diện tích của chúng:

Diện tích (m²)Giá thực tế (triệu đồng)Giá mô hình dự đoán
50150160
60180175
70210195
80240230
90270250

🔍 Tính tổng bình phương sai số (SSE):

Ta lấy hiệu giữa giá thực tếgiá dự đoán rồi bình phương từng hiệu, sau đó cộng tất cả lại:

SSE = (150 – 160)² + (180 – 175)² + (210 – 195)² + (240 – 230)² + (270 – 250)²
= (-10)² + (5)² + (15)² + (10)² + (20)²
= 100 + 25 + 225 + 100 + 400 = 850

➡️ Vậy tổng bình phương sai số850 triệu đồng² — đơn vị bình phương đó không có nghĩa về tài chính, nhưng nó giúp mô hình hiểu mức độ sai số trong dự đoán.

Tính giá trung bình của giá thực tế

trung bình = (150 + 180 + 210 + 240 + 270) / 5 = 1050 / 5 = 210

Tính SST (Tổng bình phương toàn phần)

SST đo độ biến thiên của dữ liệu thực so với giá trị trung bình:

SST = (150 – 210)² + (180 – 210)² + (210 – 210)² + (240 – 210)² + (270 – 210)²
= (-60)² + (-30)² + (0)² + (30)² + (60)²
= 3600 + 900 + 0 + 900 + 3600 = 9000

Tính SSR (Tổng bình phương hồi quy)

SSR là độ biến thiên do mô hình dự đoán tạo ra so với giá trị trung bình:

SSR = (160 – 210)² + (175 – 210)² + (195 – 210)² + (230 – 210)² + (250 – 210)²
= (-50)² + (-35)² + (-15)² + (20)² + (40)²
= 2500 + 1225 + 225 + 400 + 1600 = 5950

Lưu ý: dự đoán trong bảng phía trên là những số liệu ví dụ nên SST không bằng tổng của SSE và SSR

🤹‍♂️ Ý nghĩa vui:

SSE giống như bạn thi đoán giá nhà mà bị trật vài cái… nếu SSE càng nhỏ thì bạn “càng có duyên với bất động sản”! Còn nếu SSE to đùng… thì có khi bạn nên cân nhắc nghề khác 😄

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!