Khoảng cách Mahalanobis trong khu chợ

Tưởng tượng bạn đang ở một khu chợ đông đúc, và bạn muốn tìm một người bạn thân trong đám đông. Nhưng chợ thì to, người thì lố nhố, làm sao biết bạn mình đang đứng gần hay xa? Nếu bạn chỉ đo khoảng cách theo kiểu “đường chim bay” (khoảng cách Euclid), bạn có thể bị lạc vì chợ có những con đường ngoằn ngoèo, hàng hóa chất đống, và đám đông chen lấn. Khoảng cách Mahalanobis chính là “GPS xịn” giúp bạn tìm bạn mình một cách thông minh hơn, bằng cách tính toán khoảng cách dựa trên “bối cảnh” của khu chợ!

Khoảng cách Mahalanobis là gì?

Nó là một cách đo khoảng cách giữa hai điểm (hoặc giữa một điểm và một tập hợp dữ liệu) nhưng không phải kiểu đo thẳng băng như Euclid (√(x² + y²)). Thay vào đó, nó tính đến sự phân bố của dữ liệumối quan hệ giữa các biến (tức là độ tương quan). Nói cách khác, nó biết rằng khu chợ có chỗ đông, chỗ thưa, chỗ dễ đi, chỗ khó lách!

Tại sao nó “xịn” hơn khoảng cách Euclid?

Hãy tưởng tượng bạn có một đám mây điểm dữ liệu trên đồ thị:

  • Nếu đám mây này tròn xoe, thì khoảng cách Euclid hoạt động tốt, vì mọi hướng đều như nhau.
  • Nhưng nếu đám mây bị bẹp dẹt, kéo dài (như hình elip), thì khoảng cách Euclid sẽ “ngây thơ” vì nó không biết đám mây này bị méo mó thế nào. Mahalanobis thì thông minh hơn, nó “hiểu” hình dạng của đám mây và điều chỉnh cách đo khoảng cách cho phù hợp.

Ví dụ: Nếu bạn đo khoảng cách từ một người đến quầy bán cá, nhưng quầy cá ở giữa khu vực đông đúc, Mahalanobis sẽ nói: “Ê, đừng đi thẳng, vòng qua chỗ ít người sẽ gần hơn về mặt thực tế!”

Công thức:

Gọi:
\mathbf{x} là điểm bạn muốn đo.
\boldsymbol{\mu} là vector trung bình của mẫu (hoặc của phân phối).
\mathbf{S} là ma trận hiệp phương sai của mẫu.

Thì công thức khoảng cách Mahalanobis là:

    \[D_M(\mathbf{x}) = \sqrt{(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{S}^{-1} (\mathbf{x} - \boldsymbol{\mu})}\]

Giải thích chi tiết:

\mathbf{x} - \boldsymbol{\mu}: Hiệu giữa điểm đang xét và kỳ vọng.
\mathbf{S}^{-1}: Ma trận nghịch đảo của ma trận hiệp phương sai, giúp chuẩn hóa sự khác biệt theo phương sai và tương quan.
(\mathbf{x} - \boldsymbol{\mu})^T \mathbf{S}^{-1} (\mathbf{x} - \boldsymbol{\mu}): Đây là một dạng tích vô hướng có trọng số, đánh giá “độ lệch chuẩn hóa” của điểm so với trung tâm mẫu.

Nói đơn giản, Mahalanobis đo khoảng cách từ điểm x tới kỳ vọng được chuẩn hóa dựa trên ma trận hiệp phương sai, nên nó không chỉ đo xa gần mà còn “cân nhắc” xem đường đi có “dễ” hay không.

Ứng dụng

Phân loại: Trong machine learning, nó giúp máy tính nhận ra một điểm dữ liệu có “gần” với nhóm nào hơn (ví dụ: phân biệt khách hàng mua nhiều hay ít dựa trên hành vi).
Phát hiện bất thường: Tìm ra những thứ “lạc loài” (như một người đi lạc vào khu bán cá trong khi mọi người đang mua rau).
Thống kê: Dùng để kiểm tra xem một điểm có thuộc về một phân phối dữ liệu hay không.

Tóm lại

Khoảng cách Mahalanobis giống như một người hướng dẫn viên siêu thông minh, biết nhìn bản đồ, biết chỗ nào đông, chỗ nào thưa, và dẫn bạn đi đúng đường. Không như khoảng cách Euclid chỉ biết chạy thẳng bất chấp, Mahalanobis “có tâm” hơn, hiểu được sự phức tạp của dữ liệu! 😎

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

error: Content is protected !!