Việc chạy các mô hình ngôn ngữ lớn (LLM) cục bộ trên laptop ngày càng trở nên khả thi, và Ollama giúp cho việc này trở nên dễ dàng hơn. Chìa khóa để có trải nghiệm tốt là chọn một mô hình phù hợp với phần cứng laptop của bạn, chủ yếu là dung lượng RAM và liệu máy có card đồ họa (GPU) rời hay không.
Dưới đây là danh sách các mô hình Ollama có thể chạy trên các loại laptop khác nhau, từ máy cơ bản đến những máy có cấu hình mạnh mẽ hơn.
Dành cho Laptop Cơ bản (RAM 8GB, Card đồ họa tích hợp)
Những chiếc laptop này phù hợp với các mô hình nhỏ, hiệu suất cao. Tốc độ xử lý sẽ chậm hơn vì phụ thuộc vào CPU, nhưng hoàn toàn có thể sử dụng được cho nhiều tác vụ.
Tên Model | Số lượng tham số | Kích thước phổ biến (GB) | Đặc điểm chính |
phi-3:mini | 3.8 tỷ | ~2.3 GB | Hiệu năng xuất sắc so với kích thước, thường sánh ngang với các mô hình lớn hơn ở một số bài kiểm tra. Một điểm khởi đầu tuyệt vời. |
gemma:2b | 2 tỷ | ~1.4 GB | Mô hình nhẹ và mạnh mẽ từ Google, lý tưởng cho các thiết bị có tài nguyên hạn chế. |
llama3.2:3b | 3 tỷ | ~5-6 GB | Phiên bản nhỏ hơn của dòng Llama 3 mạnh mẽ, cung cấp các khả năng tổng quát tốt. |
tinyllama | 1.1 tỷ | ~0.6 GB | Một trong những mô hình nhỏ và nhanh nhất, phù hợp cho các hệ thống có tài nguyên hạn chế nhất. |
qwen:0.5b | 0.5 tỷ | ~0.3 GB | Một mô hình cực nhẹ từ dòng Qwen của Alibaba, tốt cho các tác vụ rất cơ bản. |
Khuyến nghị: Hãy bắt đầu với phi-3:mini
. Nó mang lại sự cân bằng tuyệt vời giữa hiệu năng và việc sử dụng tài nguyên cho các laptop không có GPU rời.
Dành cho Laptop Hiện đại (RAM 16GB, Card đồ họa tích hợp hoặc cơ bản)
Với 16GB RAM, bạn có thể thoải mái chạy các mô hình 7 tỷ tham số phổ biến và rất mạnh mẽ. Những mô hình này mang lại một bước nhảy vọt về khả năng suy luận và làm theo hướng dẫn.
Tên Model | Số lượng tham số | Kích thước phổ biến (GB) | Đặc điểm chính |
llama3:8b | 8 tỷ | ~4.7 GB | Mô hình mới nhất và mạnh mẽ nhất trong phân khúc này từ Meta. Rất được khuyến nghị cho mục đích sử dụng chung. |
mistral:7b | 7.3 tỷ | ~4.1 GB | Một mô hình rất phổ biến và hiệu quả, nổi tiếng về tốc độ và hiệu năng mạnh mẽ. |
gemma:7b | 7 tỷ | ~4.8 GB | Một mô hình cân bằng tốt từ Google, cung cấp sự kết hợp tốt giữa hiệu năng và yêu cầu tài nguyên. |
codellama:7b | 7 tỷ | ~3.8 GB | Chuyên dụng cho việc tạo mã lệnh và hỗ trợ lập trình. Là một lựa chọn không thể thiếu cho lập trình viên. |
llava:7b | 7 tỷ | ~4.1 GB | Một mô hình đa phương thức có thể hiểu cả văn bản và hình ảnh. |
Khuyến nghị: llama3:8b
hiện đang là mô hình có hiệu năng hàng đầu trong danh mục này cho các tác vụ trò chuyện và làm theo hướng dẫn thông thường.
Dành cho Laptop có GPU rời (8GB+ VRAM) và 16GB+ RAM
Nếu laptop của bạn có card đồ họa NVIDIA hoặc AMD rời, bạn có thể tận dụng khả năng tăng tốc GPU để có hiệu năng nhanh hơn đáng kể. Bạn cũng có thể chạy các mô hình lớn hơn và mạnh mẽ hơn.
Tên Model | Số lượng tham số | Kích thước phổ biến (GB) | Đặc điểm chính |
phi-3:medium | 14 tỷ | ~7.9 GB | Một phiên bản mạnh mẽ hơn của Phi-3, có thể chạy tốt trên các GPU có khoảng 8GB VRAM. |
codellama:13b | 13 tỷ | ~7.4 GB | Một phiên bản mạnh mẽ hơn của mô hình tạo mã lệnh dành cho các tác vụ lập trình phức tạp hơn. |
mixtral:8x7b | 46.7 tỷ | ~26 GB | Một mô hình “Hỗn hợp Chuyên gia” (MoE) hiệu năng cao. Mặc dù lớn, nó có thể được xử lý một phần trên GPU có đủ VRAM, phần còn lại do CPU và RAM đảm nhiệm. Yêu cầu hệ thống có từ 32GB RAM trở lên để có trải nghiệm tốt. |
llama3:70b | 70 tỷ | ~40 GB | Một trong những mô hình mở mạnh mẽ nhất hiện có. Chạy mô hình này trên laptop là một thách thức, đòi hỏi GPU di động cao cấp có VRAM lớn (16GB+) và dung lượng RAM hệ thống rất lớn (ít nhất 64GB). |
Khuyến nghị: Đối với một chiếc laptop mạnh mẽ có GPU tốt, phi-3:medium
hoặc codellama:13b
sẽ mang lại trải nghiệm rất nhạy và mạnh mẽ.
Những Lưu ý Quan trọng:
- Lượng tử hóa (Quantization): Tất cả các kích thước được đề cập là dành cho các mô hình đã được lượng tử hóa (thường là 4-bit), tức là chúng đã được nén lại để sử dụng ít RAM và VRAM hơn. Đây chính là yếu tố giúp chúng có thể chạy trên laptop.
- Hiệu năng: Tốc độ tạo văn bản của mô hình (token mỗi giây) sẽ cao hơn đáng kể trên laptop có GPU rời. Trên các hệ thống chỉ có CPU, hãy chuẩn bị cho phản hồi chậm hơn nhưng vẫn hoạt động được.
- Bắt đầu: Để chạy bất kỳ mô hình nào trong số này, trước tiên bạn cần cài đặt Ollama. Sau đó, trong terminal (cửa sổ dòng lệnh), chỉ cần gõ
ollama run <tên_model>
. Ví dụ:ollama run llama3:8b
.
Bản gốc: https://ksml4.com/ollama-models-that-can-be-run-on-a-laptop/