Deep Seek Family
Deep Seek Family
Tiêu chí | DeepSeek V1 | DeepSeek V2 / V2.5 | DeepSeek V3 | DeepSeek R1 / R1-Zero | DeepSeek V3.2 |
Ngày phát hành | Tháng 11 năm 2023 | Tháng 5 / 9 năm 2024 | Tháng 12 năm 2024 | Tháng 1 năm 2025 | |
Kiến trúc | Mô hình Transformer dày đặc với 67 tỷ tham số | (Mixture-of-Experts - MoE) với (Multi-head Latent Attention - MLA); hỗ trợ (KV caching) | 671 tỷ tham số với 256 chuyên gia; 37 tỷ tham số hoạt động mỗi lần; sử dụng MLA và KV caching | Dựa trên kiến trúc V3; bao gồm biến thể R1-Zero được huấn luyện hoàn toàn bằng (Reinforcement Learning - RL) | Nâng cấp từ V3 với MoE (Mixture-of-Experts) tối ưu hơn; cải thiện cơ chế chọn expert (routing) và hiệu quả tính toán; tiếp tục sử dụng MLA + KV caching, tăng khả năng scale và ổn định khi suy luận dài |
Phương pháp huấn luyện | (Supervised Fine-Tuning - SFT) | SFT với các tối ưu hóa về hiệu suất | SFT với dữ liệu huấn luyện lên đến 14,8 nghìn tỷ token; chi phí huấn luyện hiệu quả | Huấn luyện hai giai đoạn: SFT sau đó là RL sử dụng (Group Relative Policy Optimization - GRPO); R1-Zero chỉ sử dụng RL | SFT + RL cải tiến (pre-R1 stage); bắt đầu tích hợp các kỹ thuật reasoning-aware training (chain-of-thought distillation, self-reflection nhẹ) nhưng chưa full RL như R1 |
Khả năng suy luận | Khả năng suy luận cơ bản | Cải thiện so với V1 | Nâng cao khả năng suy luận với xử lý ngữ cảnh tốt hơn | Suy luận nâng cao với khả năng tự xác minh và phản ánh; thể hiện "khoảnh khắc Aha!" trong giải quyết vấn đề | Cải thiện rõ rệt so với V3, đặc biệt ở multi-step reasoning; giảm lỗi logic và hallucination; bắt đầu có khả năng tự kiểm tra kết quả ở mức cơ bản |
Hiệu suất benchmark | Cạnh tranh nhưng không dẫn đầu | Vượt trội hơn các phiên bản trước | Vượt qua LLaMA 3.1 và Qwen 2.5; tiệm cận GPT-4o và Claude 3.5 Sonnet | Vượt qua hoặc ngang bằng OpenAI o1 trong các bài toán toán học (AIME: 79.8%, MATH-500: 97.3%), lập trình (Codeforces: 96.3%) và suy luận | Tiệm cận hoặc vượt GPT-4o trong một số tác vụ; mạnh hơn V3 ở reasoning và coding; vẫn chưa đạt mức đỉnh như R1 trong các benchmark toán/suy luận sâu |
Giới hạn token | Không rõ | Không rõ | Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài | Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài | Hỗ trợ ~128K token đầu vào; cải thiện hiệu quả xử lý long-context (ít suy giảm chất lượng hơn V3) |
Hiệu quả chi phí | Trung bình; yêu cầu tài nguyên tính toán cao hơn | Tiết kiệm hơn so với V1 | Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 5,58 triệu USD | Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 6 triệu USD so với ước tính 100 triệu USD của GPT-4 | Tối ưu hơn V3 (nhờ routing MoE tốt hơn); chi phí training và inference giảm thêm ~10–20%; vẫn thấp hơn đáng kể so với GPT-4-class models |
Mã nguồn mở | Có, theo giấy phép MIT | Có, theo giấy phép MIT | Có, theo giấy phép MIT | Có, theo giấy phép MIT | Có, theo giấy phép MIT |
Các kỹ thuật nổi tiếng
Multi-Head Latent Attention
DeepSeekMoE mixture of experts
Deep Seek v3
Deep Seek v3
Multi-Head Latent Attention
Multi-Head Latent Attention
Vector biểu diễu của vị trí token-t trước khi đưa vào attention
Số lượng head
Chiều mỗi head
Deep Seek v3
Deep Seek v3
Giải thích
Latent Attention (MLA)
Nén token query
Nén token key
Nén Key và Value
Key and Value Compression
Nhân ma trận để giảm chiều h_t
Nén Key và Value
Key and Value Compression
Mục tiêu: Chia heads
Nén Key và Value
Key and Value Compression
Nén Key và Value
Key and Value Compression
Nén Key và Value
Key and Value Compression
(64, 4096)
(4096, 1)
(64, 1)
Nén Key và Value
Key and Value Compression
Cuối cùng thu được n head
Mỗi head và 1 vector 192 giá trị
Nén Query
Query Compression
Nén Query
Query Compression
Chia 8 heads
Chia 8 heads
(8, 128)
(8, 64)
(8, 192)
(8, 192)
(8, 128)
Nén Query
Query Compression
Tại sao rotary của Keys và Value không chia heads mà query thì chia heads?
Keys được lưu lại trong quá trình sinh (generation), vì vậy:
Queries thì không được lưu (not cached) và được tính mỗi khi sinh một token, nên:
DeepSeekMoE mixture of experts
DeepSeekMoE
Giải thích
Mixture of Experts
256
128
512
1024
Vector đầu vào của token t
shared experts
routed experts
Feed-Forward Network cho shared expert thứ i
Feed-Forward Network cho routed expert thứ i
Giá trị cổng (gating value) chuẩn hóa trên K chuyên gia để đảm bảo tổng của chúng bằng 1.
Vector sẽ học
Lựa chọn top K giá điểm từ tất cả các routed experts
Điểm Affinity Score của một routed expert
MoE flow
MoE flow
Khởi tạo vector ei
Tính điểm affinity scores thông qua dot product và sigmoid activation.
Sử dụng cơ chế cổng để xác định những chuyên gia active
Shared vs Routed Experts
Shared vs Routed Experts
Shared Experts
Routed Experts
Hoạt động với mọi token, xử lý tri thức chung giữa các token (general knowledge)
Ổn định gradient khi đào tạo
Một số lượng chuyên gia nhất định active cho một token cụ thể
Xử lý tri thức cho token cụ thể (Token-specific specialization)
Giảm tính toán so với việc sử dụng toàn bộ experts
Training Pipeline
Training Pipeline
Deep Seek V3
Base
Deep Seek R1 Zero
Không sử dụng reward model mạng nơ ron
mà dùng Rule based
Không có khả năng reasoning
Một số mẫu
Samples
Inference prompt
Inference prompt
Mẫu
Samples
Deep seek R1 Zero
không cần data như thế này
Aha moment
Aha moment
Self-reflection
Khi mô hình reasoning sai, mô hình resoning lại
Aha moment
Aha moment
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Benchmarks
Benchmarks
DeepSeek RL
DeepSeek RL
Thành phần | RLHF (PPO) | DPO | GRPO (DeepSeek R1) | GRPO (DeepSeek R1 Zero) |
Policy model (π) | Có | Có | Có | Không (không có SFT) |
Reference model (π_ref) | Có | Có (rất quan trọng) | Có | Có |
Reward model (RM) | Bắt buộc | Không cần (implicit) | Có thể có (nhưng nhẹ) | Không (hoặc cực kỳ hạn chế) |
Dữ liệu huấn luyện | Prompt + response + reward score | Prompt + (chosen, rejected) | Prompt + nhiều sampled outputs | Prompt + nhiều sampled outputs |
Cách học | Reinforcement Learning (PPO) | Supervised (log-ratio) | Reinforcement Learning (group-based) | Reinforcement Learning (group-based) |
Reward sử dụng | Absolute score | Implicit từ preference | Relative trong group | Relative trong group |
Advantage | A = r - V(s) | Không có | A = (r - mean) / std | A = (r - mean) / std |
Baseline | Critic model | Reference model | Mean của group | Mean của group |
KL constraint | Có (penalty với π_ref) | Built-in trong loss | Có (giống PPO) | Có (giống PPO) |
Sampling nhiều output | Không bắt buộc | Không | Bắt buộc | Bắt buộc |
Stability | Trung bình | Cao | Cao hơn PPO | Thấp hơn R1 (không ổn định) |
Chi phí training | Rất cao | Thấp | Trung bình | Thấp hơn (không tốn SFT + RM) |
Độ phức tạp hệ thống | Cao nhất | Thấp nhất | Trung bình | Thấp hơn (pipeline đơn giản hơn) |
Phù hợp với reasoning | Trung bình | Trung bình | Rất tốt | Rất tốt (nhưng không kiểm soát được) |
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G
Câu hỏi q được đưa vào model và output ra G kết quả oi
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G,
Đo lượng bằng việc điểm của output này
so với trung bình cả nhóm
Câu hỏi q được đưa vào model và output ra G kết quả oi
Đầu ra của reward model
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G,
Đo lượng bằng việc điểm của output này
so với trung bình cả nhóm
Câu hỏi q được đưa vào model và output ra G kết quả oi
Đầu ra của reward model
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Model cũ ở
bước training trước
Model mới ở
bước training hiện tại
Ở lần training hiện tại:
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
min(...,clip(...)): đảm bảo giá trị nằm trong đoạn [1-epsilon, 1 + epsilon], ổn định training và tránh đạo hàm quá lớn
Code
DeepSeek RL
DeepSeek RL
DeepSeek RL
DeepSeek RL
Tại sao?
Why?
Đưa về phân phối có
Tương tự Batch Norm/Layer Norm để ổn định training
Cách hoạt động
How it works?
Cách hoạt động
How it works?
Vấn đề R1-Zero
Problems of R1-Zero
DeepSeek R1
Deep Seek R1
Finetune base model trên một
lượng data reasoning chất lượng
Cold-start SFT
Cold-start SFT
Lấy reasoning data từ output
của R1-Zero
Data bao gồm cả reflection bên trong
Yêu cầu model không chỉ trả lời mà phải kiểm tra và trả lời chi tiết
Deep Seek V3
Base
Không có khả năng reasoning
Cold-start SFT
Cold-start SFT
<reasoning_process>
Các bước suy luận
</reasoning_process>
<summary>
Câu trả lời
</summary>
Tiếp tục train reasoning trên
các bài toán phức tạp hơn: Toán, Khoa học, Lập trình
Reasoning-Oriented Reinforcement Learning (Stage 1 RL)
Reasoning-Oriented Reinforcement Learning (Stage 1 RL)
Secondary RL Alignment (All-Scenario RL)
Secondary RL Alignment (All-Scenario RL)
Fine tune tiếp ưu tiên người dùng (Users Preference)
Llama 3.x series
8B, 70B
Distillation thành Models nhỏ hơn
Distillation to Smaller Models
Deep Seek R1
800K
supervised dataset
Data
dùng để train Deepseek R1
Qwen 2.5
1.5B, 7B, 14B, 32B
Fine tune
không dùng RL
14B-parameter distilled model from DeepSeek-R1 outperformed a 32B state-of-the-art open model (QwQ-32B) on reasoning benchmarks, which is a huge gain in efficiency