Deep Seek Family
Deep Seek Family
Tiêu chí | DeepSeek V1 | DeepSeek V2 / V2.5 | DeepSeek V3 | DeepSeek R1 / R1-Zero |
Ngày phát hành | Tháng 11 năm 2023 | Tháng 5 / 9 năm 2024 | Tháng 12 năm 2024 | Tháng 1 năm 2025 |
Kiến trúc | Mô hình Transformer dày đặc với 67 tỷ tham số | (Mixture-of-Experts - MoE) với (Multi-head Latent Attention - MLA); hỗ trợ (KV caching) | 671 tỷ tham số với 256 chuyên gia; 37 tỷ tham số hoạt động mỗi lần; sử dụng MLA và KV caching | Dựa trên kiến trúc V3; bao gồm biến thể R1-Zero được huấn luyện hoàn toàn bằng (Reinforcement Learning - RL) |
Phương pháp huấn luyện | (Supervised Fine-Tuning - SFT) | SFT với các tối ưu hóa về hiệu suất | SFT với dữ liệu huấn luyện lên đến 14,8 nghìn tỷ token; chi phí huấn luyện hiệu quả | Huấn luyện hai giai đoạn: SFT sau đó là RL sử dụng (Group Relative Policy Optimization - GRPO); R1-Zero chỉ sử dụng RL |
Khả năng suy luận | Khả năng suy luận cơ bản | Cải thiện so với V1 | Nâng cao khả năng suy luận với xử lý ngữ cảnh tốt hơn | Suy luận nâng cao với khả năng tự xác minh và phản ánh; thể hiện "khoảnh khắc Aha!" trong giải quyết vấn đề |
Hiệu suất benchmark | Cạnh tranh nhưng không dẫn đầu | Vượt trội hơn các phiên bản trước | Vượt qua LLaMA 3.1 và Qwen 2.5; tiệm cận GPT-4o và Claude 3.5 Sonnet | Vượt qua hoặc ngang bằng OpenAI o1 trong các bài toán toán học (AIME: 79.8%, MATH-500: 97.3%), lập trình (Codeforces: 96.3%) và suy luận |
Giới hạn token | Không rõ | Không rõ | Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài | Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài |
Hiệu quả chi phí | Trung bình; yêu cầu tài nguyên tính toán cao hơn | Tiết kiệm hơn so với V1 | Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 5,58 triệu USD | Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 6 triệu USD so với ước tính 100 triệu USD của GPT-4 |
Mã nguồn mở | Có, theo giấy phép MIT | Có, theo giấy phép MIT | Có, theo giấy phép MIT | Có, theo giấy phép MIT |
So sánh
Comparision
Các kỹ thuật nổi tiếng
Multi-Head Latent Attention
DeepSeekMoE mixture of experts
Deep Seek v3
Deep Seek v3
Multi-Head Latent Attention
Multi-Head Latent Attention
Vector biểu diễu của vị trí token-t trước khi đưa vào attention
Số lượng head
Chiều mỗi head
Deep Seek v3
Deep Seek v3
Giải thích
Latent Attention (MLA)
Nén token query
Nén token key
Nén Key và Value
Key and Value Compression
Nhân ma trận để giảm chiều h_t
Nén Key và Value
Key and Value Compression
Mục tiêu: Chia heads
Nén Key và Value
Key and Value Compression
Nén Key và Value
Key and Value Compression
Nén Key và Value
Key and Value Compression
(64, 4096)
(4096, 1)
(64, 1)
Nén Key và Value
Key and Value Compression
Cuối cùng thu được n head
Mỗi head và 1 vector 192 giá trị
Nén Query
Query Compression
Nén Query
Query Compression
Chia 8 heads
Chia 8 heads
(8, 128)
(8, 64)
(8, 192)
(8, 192)
(8, 128)
Nén Query
Query Compression
Tại sao rotary của Keys và Value không chia heads mà query thì chia heads?
Keys được lưu lại trong quá trình sinh (generation), vì vậy:
Queries thì không được lưu (not cached) và được tính mỗi khi sinh một token, nên:
DeepSeekMoE mixture of experts
DeepSeekMoE
Giải thích
Mixture of Experts
256
128
512
1024
Vector đầu vào của token t
shared experts
routed experts
Feed-Forward Network cho shared expert thứ i
Feed-Forward Network cho routed expert thứ i
Giá trị cổng (gating value) chuẩn hóa trên K chuyên gia để đảm bảo tổng của chúng bằng 1.
Vector sẽ học
Lựa chọn top K giá điểm từ tất cả các routed experts
Điểm Affinity Score của một routed expert
MoE flow
MoE flow
Khởi tạo vector ei
Tính điểm affinity scores thông qua dot product và sigmoid activation.
Sử dụng cơ chế cổng để xác định những chuyên gia active
Shared vs Routed Experts
Shared vs Routed Experts
Shared Experts
Routed Experts
Hoạt động với mọi token, xử lý tri thức chung giữa các token (general knowledge)
Ổn định gradient khi đào tạo
Một số lượng chuyên gia nhất định active cho một token cụ thể
Xử lý tri thức cho token cụ thể (Token-specific specialization)
Giảm tính toán so với việc sử dụng toàn bộ experts
Training Pipeline
Training Pipeline
Deep Seek V3
Base
Deep Seek R1 Zero
Không sử dụng reward model mạng nơ ron
mà dùng Rule based
Không có khả năng reasoning
Một số mẫu
Samples
Inference prompt
Inference prompt
Mẫu
Samples
Deep seek R1 Zero
không cần data như thế này
Aha moment
Aha moment
Self-reflection
Khi mô hình reasoning sai, mô hình resoning lại
Aha moment
Aha moment
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Reflection and Self-Verification Behavior
Benchmarks
Benchmarks
DeepSeek RL
DeepSeek RL
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G
Câu hỏi q được đưa vào model và output ra G kết quả oi
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G,
Đo lượng bằng việc điểm của output này
so với trung bình cả nhóm
Câu hỏi q được đưa vào model và output ra G kết quả oi
Đầu ra của reward model
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Tránh tối ưu quá xa
so với model ban đầu
Ai :Giá trị đo lường trọng số của output oi trong group G,
Đo lượng bằng việc điểm của output này
so với trung bình cả nhóm
Câu hỏi q được đưa vào model và output ra G kết quả oi
Đầu ra của reward model
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
Model cũ ở
bước training trước
Model mới ở
bước training hiện tại
Ở lần training hiện tại:
Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek
Group Relative Policy Optimization (GRPO)
min(...,clip(...)): đảm bảo giá trị nằm trong đoạn [1-epsilon, 1 + epsilon], ổn định training và tránh đạo hàm quá lớn
Code
DeepSeek RL
DeepSeek RL
DeepSeek RL
DeepSeek RL
Tại sao?
Why?
Đưa về phân phối có
Tương tự Batch Norm/Layer Norm để ổn định training
Cách hoạt động
How it works?
Cách hoạt động
How it works?
Vấn đề R1-Zero
Problems of R1-Zero
DeepSeek R1
Deep Seek R1
Finetune base model trên một
lượng data reasoning chất lượng
Cold-start SFT
Cold-start SFT
Lấy reasoning data từ output
của R1-Zero
Data bao gồm cả reflection bên trong
Yêu cầu model không chỉ trả lời mà phải kiểm tra và trả lời chi tiết
Deep Seek V3
Base
Không có khả năng reasoning
Cold-start SFT
Cold-start SFT
<reasoning_process>
Các bước suy luận
</reasoning_process>
<summary>
Câu trả lời
</summary>
Tiếp tục train reasoning trên
các bài toán phức tạp hơn: Toán, Khoa học, Lập trình
Reasoning-Oriented Reinforcement Learning (Stage 1 RL)
Reasoning-Oriented Reinforcement Learning (Stage 1 RL)
Secondary RL Alignment (All-Scenario RL)
Secondary RL Alignment (All-Scenario RL)
Fine tune tiếp ưu tiên người dùng (Users Preference)
Llama 3.x series
8B, 70B
Distillation thành Models nhỏ hơn
Distillation to Smaller Models
Deep Seek R1
800K
supervised dataset
Data
dùng để train Deepseek R1
Qwen 2.5
1.5B, 7B, 14B, 32B
Fine tune
không dùng RL
14B-parameter distilled model from DeepSeek-R1 outperformed a 32B state-of-the-art open model (QwQ-32B) on reasoning benchmarks, which is a huge gain in efficiency