Cách phân chia tập huấn luyện – tập kiểm tra
📊 Trong học máy, việc phân chia tập dữ liệu thành tập huấn luyện và tập kiểm tra là bước cực kỳ quan trọng để đánh giá khả năng khái quát hóa của mô hình.… Cách phân chia tập huấn luyện – tập kiểm tra
📊 Trong học máy, việc phân chia tập dữ liệu thành tập huấn luyện và tập kiểm tra là bước cực kỳ quan trọng để đánh giá khả năng khái quát hóa của mô hình.… Cách phân chia tập huấn luyện – tập kiểm tra
Label Encoder là một kỹ thuật trong tiền xử lý dữ liệu (data preprocessing) dùng để chuyển đổi các nhãn hoặc dữ liệu dạng chữ (categorical data) thành dạng số (numerical data). Các mô hình… Label Encoder là gì? Ví dụ code Python
Câu chuyện về cậu học sinh Khoa là một phép ẩn dụ đơn giản nhưng chính xác cho khái niệm overfitting (học vẹt) trong học máy và cách cross-validation (kiểm tra chéo) được sử dụng… Học vẹt (overfitting) và kiểm tra chéo (cross validation) qua câu chuyện kế hoạch siêu bí mật của Khoa
Xác thực chéo — hay còn gọi là cross-validation — chính là kiểu “kiểm tra lại xem mô hình có phải là học trò ngoan không hay chỉ giỏi làm bài… đúng một đề 😅”.… Cross-Validation (Xác thực chéo)
Lựa chọn đặc trưng tiến bắt đầu với một mô hình trống và thêm các đặc trưng từng cái một. Ở mỗi bước, đặc trưng cải thiện hiệu suất mô hình nhiều nhất sẽ được… Ví dụ từng bước về lựa chọn đặc trưng tiến sử dụng R bình phương hiệu chỉnh
Lựa chọn tính năng ngược (backward feature selection) bắt đầu với mô hình đầy đủ bao gồm tất cả các tính năng và lặp đi lặp lại loại bỏ tính năng ít quan trọng nhất… Ví dụ từng bước về quá trình lựa chọn đặc trưng lùi (backward feature selection) sử dụng R bình phương hiệu chỉnh
Lựa chọn đặc trưng từng bước là một phương pháp có hệ thống để xác định các đặc trưng quan trọng nhất cho một mô hình dự đoán bằng cách kết hợp cả hai kỹ… Ví dụ từng bước về lựa chọn đặc trưng từng bước (stepwise feature selection) sử dụng R bình phương hiệu chỉnh
Mô hình hồi quy tuyến tính đa biến không chỉ là một công cụ dự đoán, mà còn là một người bạn “khó tính” – muốn làm việc với nó thì bạn phải tuân thủ… hồi quy tuyến tính đa biến – các giả định cần nhớ (và nhớ cho vui)
Okay, các bạn sinh viên ngành học máy, chuẩn bị tinh thần để “debug” sự phân vân của mình với Cây Quyết Định (Decision Tree)! 😎 Đây là cách để các bạn thoát khỏi vòng… Cây Quyết Định (Decision Tree) cho người hay phân vân
Hồi quy logistic là một “thầy bói công nghệ” chuyên dự đoán xác suất một chuyện gì đó xảy ra, ví dụ như bạn có ăn hết cái bánh quy hay không 🍪. Thầy bói… Hồi quy logistic – “thầy bói công nghệ”
Tuyệt! Dưới đây là một ví dụ hồi quy logistic trong R sử dụng bộ dữ liệu mtcars, một bộ dữ liệu rất phổ biến chứa thông tin về các loại xe. 🎯 Mục tiêu:… Ví dụ về hồi quy Logistic trong R trên bộ dữ liệu mtcars
🌀 Trong ví dụ với dữ liệu mô phỏng này, ta sẽ dùng SVM với kernel RBF để phân loại hai lớp có dạng vòng tròn chồng nhau – bài toán không tuyến tính. Mô… Ví dụ về SVM với kernel RBF trong Python
Trong ví dụ này, chúng ta sử dụng mô hình SVM với kernel RBF để phân loại hai lớp dữ liệu giả dạng vòng tròn không tuyến tính, thể hiện rõ khả năng xử lý… mô hình SVM với kernel RBF trong R
KNN là một thuật toán cực kỳ đơn giản nhưng rất thông minh trong thế giới máy học. Nó giống như bạn đang hỏi ý kiến của những người hàng xóm thân thiện để đưa… K-Nearest Neighbors (KNN): có vấn đề gì thì hỏi hàng xóm
Entropy giống như một “chỉ số hỗn loạn” của một nhóm dữ liệu. Nếu trong nhóm, tất cả mọi người đều giống nhau (chẳng hạn tất cả đều thích pizza), thì entropy = 0, nghĩa… Entropy (Sự rối loạn của dữ liệu)
Gini cũng là một chỉ số đo hỗn loạn, nhưng tính theo cách khác so với Entropy. Nó tính xác suất để hai mẫu lấy ngẫu nhiên mà khác loại nhau. Nếu chỉ số Gini… Gini Index (Chỉ số đồng nhất)
Trong ví dụ này, chúng ta sẽ sử dụng thuật toán K-Nearest Neighbors (KNN) trong thư viện scikit-learn để phân loại hoa trong bộ dữ liệu Iris. Dưới đây là chi tiết các bước: 🌸… K-Nearest Neighbors trong Python
Ưu điểm của Máy Vector Hỗ trợ SVM là một trong những thuật toán học có giám sát phổ biến nhất trong học máy và trí tuệ nhân tạo, chủ yếu vì chúng có thể… Ưu điểm và khuyết điểm của Máy Vector Hỗ trợ
Mặc dù đơn giản và trực quan, KNN cũng có những hạn chế đáng kể cần được cân nhắc kỹ lưỡng khi lựa chọn thuật toán cho một bài toán cụ thể. Bảng 2: Tóm… Ưu và Nhược điểm của KNN
Việc lựa chọn thuật toán học máy phù hợp là một quyết định quan trọng, phụ thuộc vào đặc điểm của dữ liệu và yêu cầu cụ thể của bài toán. KNN, với tính đơn… So sánh KNN với các thuật toán học máy khác
LỰA CHỌN TIẾN (Forward Selection) – như… tuyển quân làm nhiệm vụ đặc biệt Bạn là đội trưởng của một biệt đội siêu nhân. Trước mặt bạn là một danh sách dài các ứng viên… lựa chọn tiến – tuyển dụng nhân tài cấp cao
Lựa chọn từng bước (Stepwise Selection) là một sự kết hợp khéo léo giữa “tiến” và “lùi” – như đang chọn người yêu nhưng vẫn lùi bước khi thấy “cờ đỏ” 🚩🤣 Bạn đang xây… Lựa chọn từng bước (Stepwise Selection)
📊 So sánh 3 phương pháp: Phương pháp Chiến lược Ưu điểm Nhược điểm Lựa chọn tiến Chỉ thêm đặc trưng Nhanh, đơn giản Có thể bỏ lỡ tổ hợp đặc biệt Lựa chọn lùi… so sánh Lựa chọn tiến – Lựa chọn lùi – Lựa chọn từng bước
🔍 Tìm kiếm lưới (Grid Search) là một kỹ thuật trong học máy dùng để tối ưu hóa siêu tham số của mô hình. Hãy tưởng tượng bạn đang thử mọi công thức nấu ăn… Tìm Kiếm Lưới (Grid Search) Để Tối Ưu Hóa Tham Số
chi tiết hơn: Trong lĩnh vực machine learning, việc chia dữ liệu thành ba tỷ lệ chính: huấn luyện, đào tạo và kiểm tra là một bước không thể thiếu. Mỗi tỷ lệ đảm nhận… Các Tỉ Lệ Huấn Luyện-Đào Tạo-Kiểm Tra Phổ Biến Trong Machine Learning
Hệ số xác định hiệu chỉnh như một chiếc kính lúp tinh chỉnh giúp bạn đo lường chính xác hơn trong các mô hình thống kê hoặc tính toán. 🧠 Ví dụ vui cho dễ… Hệ số xác định hiệu chỉnh
Để hiểu tập xác nhận (validation set), hãy nhớ lại câu chuyện huấn luyện chú mèo xiếc của chúng ta! 😺 Tập xác nhận (Validation set) là gì? Hãy tưởng tượng bạn đang huấn luyện… phân chia tập xác nhận (validation set)
Hãy tưởng tượng bạn đang cố gắng vẽ một đường thẳng (mô hình hồi quy tuyến tính) để “chinh phục” đám mây điểm dữ liệu. Đường thẳng này giống như một người bạn cố gắng… Biểu đồ phần dư – có nên đu trend?
LASSO Lasso là viết tắt của Least Absolute Shrinkage and Selection Operator (nghe dài dòng nhưng cứ hiểu là “thu nhỏ và chọn lọc” là được). Nó là một dạng hồi quy tuyến tính, nhưng… Hồi quy Lasso
Giả sử bạn đang xây một mô hình dự đoán giá nhà dựa trên diện tích và số phòng. Bạn có 100 ngôi nhà: