VI.1a-Phân tích thành phần chính
Bạn có bao giờ gặp tình huống dữ liệu nhiều chiều đến mức… chóng mặt? Nói cách khác là dữ liệu “thừa mỡ”? Đưa PCA xử lý giúp – giữ lại cái chất, bỏ đi… VI.1a-Phân tích thành phần chính
Bạn có bao giờ gặp tình huống dữ liệu nhiều chiều đến mức… chóng mặt? Nói cách khác là dữ liệu “thừa mỡ”? Đưa PCA xử lý giúp – giữ lại cái chất, bỏ đi… VI.1a-Phân tích thành phần chính
Cây quyết định (Decision Tree) có ưu điểm là dễ hiểu, trực quan và xử lý tốt dữ liệu dạng bảng, nhưng nhược điểm là dễ bị quá khớp, không ổn định với dữ liệu… V.5b Ưu khuyết điểm của cây quyết định
Okay, các bạn sinh viên ngành học máy, chuẩn bị tinh thần để “debug” sự phân vân của mình với Cây Quyết Định (Decision Tree)! 😎 Đây là cách để các bạn thoát khỏi vòng… V.5a Cây Quyết Định cho người hay phân vân
Ưu điểm của Máy Vector Hỗ trợ SVM là một trong những thuật toán học có giám sát phổ biến nhất trong học máy và trí tuệ nhân tạo, chủ yếu vì chúng có thể… V.4c: Ưu/ khuyết điểm của SVM
Kernel trick là một kỹ thuật quan trọng trong SVM giúp giải quyết các bài toán phân loại phức tạp khi dữ liệu không tuyến tính trong không gian gốc. 🔎 Ý tưởng chính ⚙️… V.4b: Thủ thuật kernel
Bạn tưởng tượng có một bữa tiệc với 2 nhóm khách mời: nhóm “Mèo” và nhóm “Chó”. Nhiệm vụ của bạn là tìm một đường ranh giới (siêu phẳng) để phân chia hai nhóm này… V.4a Máy véc tơ hỗ trợ (SVM)
Hồi quy Logistic là mô hình mạnh mẽ cho phân loại nhị phân, nhưng nếu không kiểm soát tốt, nó dễ bị quá khớp (overfitting) khi số đặc trưng nhiều hoặc dữ liệu nhiễu. 🔎… V.3d hồi quy Logistic: quá khớp/ lựa chọn đặc trưng
Trong hồi quy logistic, ta cần tìm vector tham số (và bias ) sao cho mô hình dự đoán xác suất khớp tốt nhất với dữ liệu quan sát. 🔎 1. Hàm xác suất (Likelihood)… V.3c Ước lượng tham số hồi quy logistic
Hồi quy logistic có thể được xây dựng dựa trên phân phối Bernoulli vì đầu ra của bài toán phân loại nhị phân chỉ có hai giá trị: . 🔎 Bước hình thành 🌍 Ý… V.3b hồi quy logistic
Hãy tưởng tượng bạn là một đầu bếp tài ba, đang cố nấu món phở bò ngon nhất nhưng không biết công thức gia truyền. Bạn chỉ có phản hồi từ thực khách: “Mặn quá!”,… V.3a Ước lượng hợp lý cực đại
Ý nghĩa và lựa chọn giá trị K tối ưu Giá trị ‘K’ trong thuật toán K-Nearest Neighbors là một siêu tham số quan trọng, định nghĩa số lượng láng giềng gần nhất mà thuật… V.2c những lưu ý quan trọng khi sử dụng KNN
KNN (K-Nearest Neighbors) là một thuật toán phân loại đơn giản nhưng rất trực quan trong học máy. Ý tưởng chính: 🐾 Ví dụ minh họa Giả sử ta có dữ liệu về loài vật… V.2b Ví dụ về KNN
KNN là một thuật toán cực kỳ đơn giản nhưng rất thông minh trong thế giới máy học. Nó giống như bạn đang hỏi ý kiến của những người hàng xóm thân thiện để đưa… V.2a phân loại K-Nearest Neighbors (KNN)
Phân loại trong học máy là quá trình dùng dữ liệu để huấn luyện mô hình nhằm gán nhãn cho đối tượng mới, và nó có rất nhiều ứng dụng thực tế như nhận diện… V.1 phân loại là gì
Siêu tham số giống như những quy tắc trước khi huấn luyện một đội bóng: chọn chiến thuật, thời gian tập luyện, ăn kiêng,… Nếu chọn sai, cả đội chơi như gà mắc tóc. Tối… IV.6-tìm kiếm ngẫu nhiên để tối ưu siêu tham số
Giả sử bạn đang xây một mô hình dự đoán giá nhà dựa trên diện tích và số phòng. Bạn có 100 ngôi nhà:
Xác thực chéo giống như việc bạn kiểm tra một học sinh bằng nhiều bài kiểm tra khác nhau để đảm bảo học sinh đó thực sự hiểu bài, chứ không chỉ học vẹt một… IV.5b-Xác thực chéo (cross validation) với K = 3
Xác thực chéo — hay còn gọi là cross-validation — chính là kiểu “kiểm tra lại xem mô hình có phải là học trò ngoan không hay chỉ giỏi làm bài… đúng một đề 😅”.… IV.5a Xác thực chéo
chi tiết hơn: Trong lĩnh vực machine learning, việc chia dữ liệu thành ba tỷ lệ chính: huấn luyện, đào tạo và kiểm tra là một bước không thể thiếu. Mỗi tỷ lệ đảm nhận… IV.3b Các Tỉ Lệ Huấn Luyện-Đào Tạo-Kiểm Tra Phổ Biến
Để hiểu tập xác nhận (validation set), hãy nhớ lại câu chuyện huấn luyện chú mèo xiếc của chúng ta! 😺 Tập xác nhận (Validation set) là gì? Hãy tưởng tượng bạn đang huấn luyện… IV.2-phân chia tập xác nhận (validation set)
Siêu tham số là gì? Đó là những “bí kíp võ công” bạn phải set sẵn trước khi cho mô hình học máy “luyện công” (huấn luyện). Không giống trọng số tự học từ dữ… IV.1 Siêu tham số là gì?
Hồi quy Ridge, anh bạn thân của Lasso, cũng là một “cao bồi” trong thế giới hồi quy, nhưng tính cách thì… hiền lành hơn một chút! Nếu Lasso là chàng cao bồi vung dây… III.7 – hồi quy Ridge
Lasso là viết tắt của Least Absolute Shrinkage and Selection Operator (nghe dài dòng nhưng cứ hiểu là “thu nhỏ và chọn lọc” là được). Nó là một dạng hồi quy tuyến tính, nhưng có… III.6 Hồi quy Lasso
📊 So sánh 3 phương pháp: Phương pháp Chiến lược Ưu điểm Nhược điểm Lựa chọn tiến Chỉ thêm đặc trưng Nhanh, đơn giản Có thể bỏ lỡ tổ hợp đặc biệt Lựa chọn lùi… III.5 so sánh lựa chọn tiến – lùi – từng bước
Lựa chọn từng bước (Stepwise Selection) là một sự kết hợp khéo léo giữa “tiến” và “lùi” – như đang chọn người yêu nhưng vẫn lùi bước khi thấy “cờ đỏ” 🚩🤣 Bạn đang xây… III. 4 Lựa chọn từng bước
Lựa chọn tính năng ngược (backward feature selection) bắt đầu với mô hình đầy đủ bao gồm tất cả các tính năng và lặp đi lặp lại loại bỏ tính năng ít quan trọng nhất… III.3b Ví dụ: lựa chọn đặc trưng lùi
LỰA CHỌN LÙI (Backward Selection) – “biệt đội đã full người, giờ phải loại bớt” Giả sử bạn đang quản lý một biệt đội siêu nhân đông đúc, kiểu: “Càng đông càng mạnh” – bạn… III.3a Lựa Chọn Lùi –Chọn Người Để “Đuổi Việc”
Lựa chọn đặc trưng tiến bắt đầu với một mô hình trống và thêm các đặc trưng từng cái một. Ở mỗi bước, đặc trưng cải thiện hiệu suất mô hình nhiều nhất sẽ được… III.2b Ví dụ: lựa chọn đặc trưng tiến
LỰA CHỌN TIẾN (Forward Selection) – như… tuyển quân làm nhiệm vụ đặc biệt Bạn là đội trưởng của một biệt đội siêu nhân. Trước mặt bạn là một danh sách dài các ứng viên… III.2a lựa chọn đặc trưng tiến
Hãy tưởng tượng bạn đang tuyển người yêu. Có cả trăm người ứng tuyển, mỗi người đều có “đặc trưng” riêng: cao, thấp, biết nấu ăn, thích xem phim, mê thể thao, yêu mèo, ghét… III.1-Lựa Chọn Đặc Trưng
🎯 BIC (Bayesian Information Criterion) là “phiên bản nghiêm khắc hơn của AIC” trong việc chọn mô hình thống kê! 🧠 BIC là gì? Hãy tưởng tượng bạn đang tuyển chọn mô hình cho một… II.8-Tiêu chí BIC (Bayesian Information Criterion)