VI.5d Những lưu ý khi sử dụng K-Means
K-Means là một thuật toán phân cụm phổ biến, nhưng để áp dụng hiệu quả cần chú ý một số điểm quan trọng: 🔎 Các lưu ý chính 🌍 Tóm lại K-Means dễ dùng và… VI.5d Những lưu ý khi sử dụng K-Means
K-Means là một thuật toán phân cụm phổ biến, nhưng để áp dụng hiệu quả cần chú ý một số điểm quan trọng: 🔎 Các lưu ý chính 🌍 Tóm lại K-Means dễ dùng và… VI.5d Những lưu ý khi sử dụng K-Means
📌 Phát hiện outlier bằng K-Means K-Means không chỉ dùng để phân cụm mà còn có thể được tận dụng để phát hiện điểm bất thường (outlier detection) trong dữ liệu. 🔎 Ý tưởng chính… VI.5c Phát hiện outlier bằng K-Means
Trong thế giới dữ liệu, K-means giống như một cuộc dạo chơi đi tìm bạn thân theo sở thích thầm kín mà không cần nói ra. Bạn cứ lặng lẽ xếp vào nhóm có đặc… VI.5b Phân cụm K-Means
K-Means được ứng dụng rộng rãi trong nhiều lĩnh vực như phân cụm khách hàng, xử lý ảnh, phát hiện bất thường, và khai phá dữ liệu lớn nhờ khả năng nhóm dữ liệu chưa… VI.5a – Ứng dụng của KMeans
📌 Lựa chọn đặc trưng khi tất cả đặc trưng đều có ích Đây là một tình huống thú vị trong học máy: đôi khi mọi đặc trưng đều mang thông tin hữu ích, nhưng… VI.4 Lựa chọn đặc trưng khi tất cả có ích
📌 Tại sao cần giảm chiều (Dimensionality Reduction) khi đã có thể lựa chọn đặc trưng (Feature Selection)? Hai kỹ thuật này đều nhằm xử lý dữ liệu có nhiều đặc trưng, nhưng chúng không… VI.3- tại sao cần giảm chiều
Tại sao cần lựa chọn đặc trưng khi đã có thể giảm chiều? Trong học máy, cả lựa chọn đặc trưng (feature selection) và giảm chiều (dimensionality reduction) đều nhằm mục tiêu xử lý dữ… VI.2-tại sao cần lựa chọn đặc trưng
Bạn có bao giờ gặp tình huống dữ liệu nhiều chiều đến mức… chóng mặt? Nói cách khác là dữ liệu “thừa mỡ”? Đưa PCA xử lý giúp – giữ lại cái chất, bỏ đi… VI.1a-Phân tích thành phần chính
Cây quyết định (Decision Tree) có ưu điểm là dễ hiểu, trực quan và xử lý tốt dữ liệu dạng bảng, nhưng nhược điểm là dễ bị quá khớp, không ổn định với dữ liệu… V.5b Ưu khuyết điểm của cây quyết định
Okay, các bạn sinh viên ngành học máy, chuẩn bị tinh thần để “debug” sự phân vân của mình với Cây Quyết Định (Decision Tree)! 😎 Đây là cách để các bạn thoát khỏi vòng… V.5a Cây Quyết Định cho người hay phân vân
Ưu điểm của Máy Vector Hỗ trợ SVM là một trong những thuật toán học có giám sát phổ biến nhất trong học máy và trí tuệ nhân tạo, chủ yếu vì chúng có thể… V.4c: Ưu/ khuyết điểm của SVM
Kernel trick là một kỹ thuật quan trọng trong SVM giúp giải quyết các bài toán phân loại phức tạp khi dữ liệu không tuyến tính trong không gian gốc. 🔎 Ý tưởng chính ⚙️… V.4b: Thủ thuật kernel
Bạn tưởng tượng có một bữa tiệc với 2 nhóm khách mời: nhóm “Mèo” và nhóm “Chó”. Nhiệm vụ của bạn là tìm một đường ranh giới (siêu phẳng) để phân chia hai nhóm này… V.4a Máy véc tơ hỗ trợ (SVM)
Hồi quy Logistic là mô hình mạnh mẽ cho phân loại nhị phân, nhưng nếu không kiểm soát tốt, nó dễ bị quá khớp (overfitting) khi số đặc trưng nhiều hoặc dữ liệu nhiễu. 🔎… V.3d hồi quy Logistic: quá khớp/ lựa chọn đặc trưng
Trong hồi quy logistic, ta cần tìm vector tham số (và bias ) sao cho mô hình dự đoán xác suất khớp tốt nhất với dữ liệu quan sát. 🔎 1. Hàm xác suất (Likelihood)… V.3c Ước lượng tham số hồi quy logistic
Hồi quy logistic có thể được xây dựng dựa trên phân phối Bernoulli vì đầu ra của bài toán phân loại nhị phân chỉ có hai giá trị: . 🔎 Bước hình thành 🌍 Ý… V.3b hồi quy logistic
Hãy tưởng tượng bạn là một đầu bếp tài ba, đang cố nấu món phở bò ngon nhất nhưng không biết công thức gia truyền. Bạn chỉ có phản hồi từ thực khách: “Mặn quá!”,… V.3a Ước lượng hợp lý cực đại
Ý nghĩa và lựa chọn giá trị K tối ưu Giá trị ‘K’ trong thuật toán K-Nearest Neighbors là một siêu tham số quan trọng, định nghĩa số lượng láng giềng gần nhất mà thuật… V.2c những lưu ý quan trọng khi sử dụng KNN
KNN (K-Nearest Neighbors) là một thuật toán phân loại đơn giản nhưng rất trực quan trong học máy. Ý tưởng chính: 🐾 Ví dụ minh họa Giả sử ta có dữ liệu về loài vật… V.2b Ví dụ về KNN
KNN là một thuật toán cực kỳ đơn giản nhưng rất thông minh trong thế giới máy học. Nó giống như bạn đang hỏi ý kiến của những người hàng xóm thân thiện để đưa… V.2a phân loại K-Nearest Neighbors (KNN)
Phân loại trong học máy là quá trình dùng dữ liệu để huấn luyện mô hình nhằm gán nhãn cho đối tượng mới, và nó có rất nhiều ứng dụng thực tế như nhận diện… V.1 phân loại là gì
Siêu tham số giống như những quy tắc trước khi huấn luyện một đội bóng: chọn chiến thuật, thời gian tập luyện, ăn kiêng,… Nếu chọn sai, cả đội chơi như gà mắc tóc. Tối… IV.6-tìm kiếm ngẫu nhiên để tối ưu siêu tham số
Giả sử bạn đang xây một mô hình dự đoán giá nhà dựa trên diện tích và số phòng. Bạn có 100 ngôi nhà:
Xác thực chéo giống như việc bạn kiểm tra một học sinh bằng nhiều bài kiểm tra khác nhau để đảm bảo học sinh đó thực sự hiểu bài, chứ không chỉ học vẹt một… IV.5b-Xác thực chéo (cross validation) với K = 3
Xác thực chéo — hay còn gọi là cross-validation — chính là kiểu “kiểm tra lại xem mô hình có phải là học trò ngoan không hay chỉ giỏi làm bài… đúng một đề 😅”.… IV.5a Xác thực chéo
chi tiết hơn: Trong lĩnh vực machine learning, việc chia dữ liệu thành ba tỷ lệ chính: huấn luyện, đào tạo và kiểm tra là một bước không thể thiếu. Mỗi tỷ lệ đảm nhận… IV.3b Các Tỉ Lệ Huấn Luyện-Đào Tạo-Kiểm Tra Phổ Biến
Để hiểu tập xác nhận (validation set), hãy nhớ lại câu chuyện huấn luyện chú mèo xiếc của chúng ta! 😺 Tập xác nhận (Validation set) là gì? Hãy tưởng tượng bạn đang huấn luyện… IV.2-phân chia tập xác nhận (validation set)
Siêu tham số là gì? Đó là những “bí kíp võ công” bạn phải set sẵn trước khi cho mô hình học máy “luyện công” (huấn luyện). Không giống trọng số tự học từ dữ… IV.1 Siêu tham số là gì?