1 of 57

Deep Seek Family

2 of 57

Tiêu chí	DeepSeek V1	DeepSeek V2 / V2.5	DeepSeek V3	DeepSeek R1 / R1-Zero	DeepSeek V3.2
Ngày phát hành	Tháng 11 năm 2023	Tháng 5 / 9 năm 2024	Tháng 12 năm 2024	Tháng 1 năm 2025
Kiến trúc	Mô hình Transformer dày đặc với 67 tỷ tham số	(Mixture-of-Experts - MoE) với (Multi-head Latent Attention - MLA); hỗ trợ (KV caching)	671 tỷ tham số với 256 chuyên gia; 37 tỷ tham số hoạt động mỗi lần; sử dụng MLA và KV caching	Dựa trên kiến trúc V3; bao gồm biến thể R1-Zero được huấn luyện hoàn toàn bằng (Reinforcement Learning - RL)	Nâng cấp từ V3 với MoE (Mixture-of-Experts) tối ưu hơn; cải thiện cơ chế chọn expert (routing) và hiệu quả tính toán; tiếp tục sử dụng MLA + KV caching, tăng khả năng scale và ổn định khi suy luận dài
Phương pháp huấn luyện	(Supervised Fine-Tuning - SFT)	SFT với các tối ưu hóa về hiệu suất	SFT với dữ liệu huấn luyện lên đến 14,8 nghìn tỷ token; chi phí huấn luyện hiệu quả	Huấn luyện hai giai đoạn: SFT sau đó là RL sử dụng (Group Relative Policy Optimization - GRPO); R1-Zero chỉ sử dụng RL	SFT + RL cải tiến (pre-R1 stage); bắt đầu tích hợp các kỹ thuật reasoning-aware training (chain-of-thought distillation, self-reflection nhẹ) nhưng chưa full RL như R1
Khả năng suy luận	Khả năng suy luận cơ bản	Cải thiện so với V1	Nâng cao khả năng suy luận với xử lý ngữ cảnh tốt hơn	Suy luận nâng cao với khả năng tự xác minh và phản ánh; thể hiện "khoảnh khắc Aha!" trong giải quyết vấn đề	Cải thiện rõ rệt so với V3, đặc biệt ở multi-step reasoning; giảm lỗi logic và hallucination; bắt đầu có khả năng tự kiểm tra kết quả ở mức cơ bản
Hiệu suất benchmark	Cạnh tranh nhưng không dẫn đầu	Vượt trội hơn các phiên bản trước	Vượt qua LLaMA 3.1 và Qwen 2.5; tiệm cận GPT-4o và Claude 3.5 Sonnet	Vượt qua hoặc ngang bằng OpenAI o1 trong các bài toán toán học (AIME: 79.8%, MATH-500: 97.3%), lập trình (Codeforces: 96.3%) và suy luận	Tiệm cận hoặc vượt GPT-4o trong một số tác vụ; mạnh hơn V3 ở reasoning và coding; vẫn chưa đạt mức đỉnh như R1 trong các benchmark toán/suy luận sâu
Giới hạn token	Không rõ	Không rõ	Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài	Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài	Hỗ trợ ~128K token đầu vào; cải thiện hiệu quả xử lý long-context (ít suy giảm chất lượng hơn V3)
Hiệu quả chi phí	Trung bình; yêu cầu tài nguyên tính toán cao hơn	Tiết kiệm hơn so với V1	Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 5,58 triệu USD	Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 6 triệu USD so với ước tính 100 triệu USD của GPT-4	Tối ưu hơn V3 (nhờ routing MoE tốt hơn); chi phí training và inference giảm thêm ~10–20%; vẫn thấp hơn đáng kể so với GPT-4-class models
Mã nguồn mở	Có, theo giấy phép MIT	Có, theo giấy phép MIT	Có, theo giấy phép MIT	Có, theo giấy phép MIT	Có, theo giấy phép MIT

3 of 57

Các kỹ thuật nổi tiếng

Multi-Head Latent Attention

DeepSeekMoE mixture of experts

Deep Seek v3

4 of 57

Multi-Head Latent Attention

https://arxiv.org/pdf/2412.19437

Vector biểu diễu của vị trí token-t trước khi đưa vào attention

Số lượng head

Chiều mỗi head

5 of 57

Deep Seek v3

Giải thích

Latent Attention (MLA)

Code chi tiết

Nén token query

Nén token key

6 of 57

Nén Key và Value

Key and Value Compression

Nhân ma trận để giảm chiều h_t

7 of 57

Nén Key và Value

Key and Value Compression

Mục tiêu: Chia heads

8 of 57

Nén Key và Value

Key and Value Compression

9 of 57

Nén Key và Value

Key and Value Compression

10 of 57

Nén Key và Value

Key and Value Compression

(64, 4096)

(4096, 1)

(64, 1)

11 of 57

Nén Key và Value

Key and Value Compression

Cuối cùng thu được n head

Mỗi head và 1 vector 192 giá trị

12 of 57

Nén Query

Query Compression

13 of 57

Nén Query

Query Compression

Chia 8 heads

(8, 128)

(8, 64)

(8, 192)

(8, 128)

14 of 57

Nén Query

Query Compression

15 of 57

Tại sao rotary của Keys và Value không chia heads mà query thì chia heads?

16 of 57

Keys được lưu lại trong quá trình sinh (generation), vì vậy:

Chúng ta muốn giảm thiểu kích thước bộ nhớ lưu trữ KV cache (Key-Value cache)
Chỉ cần tính một vector RoPE cho key dùng chung cho tất cả các heads → tiết kiệm bộ nhớ
Đó là lý do keys chia sẻ cùng một vector RoPE (Rotary Positional Embedding)

Queries thì không được lưu (not cached) và được tính mỗi khi sinh một token, nên:

Không bị giới hạn bộ nhớ → ta có thể sử dụng RoPE riêng cho từng head
Mỗi head có thể linh hoạt hơn trong việc xác định vị trí (positional attention bias) theo cách riêng

17 of 57

DeepSeekMoE mixture of experts

DeepSeekMoE

Giải thích

Mixture of Experts

Code chi tiết

256

128

512

1024

18 of 57

Vector đầu vào của token t

shared experts

routed experts

Feed-Forward Network cho shared expert thứ i

Feed-Forward Network cho routed expert thứ i

Giá trị cổng (gating value) chuẩn hóa trên K chuyên gia để đảm bảo tổng của chúng bằng 1.

Vector sẽ học

Lựa chọn top K giá điểm từ tất cả các routed experts

Điểm Affinity Score của một routed expert

19 of 57

MoE flow

Khởi tạo vector e_i

Tính điểm affinity scores thông qua dot product và sigmoid activation.

Sử dụng cơ chế cổng để xác định những chuyên gia active

20 of 57

Shared vs Routed Experts

Shared Experts

Routed Experts

Hoạt động với mọi token, xử lý tri thức chung giữa các token (general knowledge)

Ổn định gradient khi đào tạo

Một số lượng chuyên gia nhất định active cho một token cụ thể

Xử lý tri thức cho token cụ thể (Token-specific specialization)

Giảm tính toán so với việc sử dụng toàn bộ experts

21 of 57

Training Pipeline

Deep Seek V3

Base

Deep Seek R1 Zero

Không sử dụng reward model mạng nơ ron

mà dùng Rule based

Không có khả năng reasoning

22 of 57

Một số mẫu

Samples

23 of 57

Inference prompt

24 of 57

Mẫu

Samples

Deep seek R1 Zero

không cần data như thế này

25 of 57

Aha moment

Self-reflection

Khi mô hình reasoning sai, mô hình resoning lại

26 of 57

Aha moment

27 of 57

Reflection and Self-Verification Behavior

28 of 57

Reflection and Self-Verification Behavior

29 of 57

Benchmarks

30 of 57

DeepSeek RL

Paper

31 of 57

Thành phần	RLHF (PPO)	DPO	GRPO (DeepSeek R1)	GRPO (DeepSeek R1 Zero)
Policy model (π)	Có	Có	Có	Không (không có SFT)
Reference model (π_ref)	Có	Có (rất quan trọng)	Có	Có
Reward model (RM)	Bắt buộc	Không cần (implicit)	Có thể có (nhưng nhẹ)	Không (hoặc cực kỳ hạn chế)
Dữ liệu huấn luyện	Prompt + response + reward score	Prompt + (chosen, rejected)	Prompt + nhiều sampled outputs	Prompt + nhiều sampled outputs
Cách học	Reinforcement Learning (PPO)	Supervised (log-ratio)	Reinforcement Learning (group-based)	Reinforcement Learning (group-based)
Reward sử dụng	Absolute score	Implicit từ preference	Relative trong group	Relative trong group
Advantage	A = r - V(s)	Không có	A = (r - mean) / std	A = (r - mean) / std
Baseline	Critic model	Reference model	Mean của group	Mean của group
KL constraint	Có (penalty với π_ref)	Built-in trong loss	Có (giống PPO)	Có (giống PPO)
Sampling nhiều output	Không bắt buộc	Không	Bắt buộc	Bắt buộc
Stability	Trung bình	Cao	Cao hơn PPO	Thấp hơn R1 (không ổn định)
Chi phí training	Rất cao	Thấp	Trung bình	Thấp hơn (không tốn SFT + RM)
Độ phức tạp hệ thống	Cao nhất	Thấp nhất	Trung bình	Thấp hơn (pipeline đơn giản hơn)
Phù hợp với reasoning	Trung bình	Trung bình	Rất tốt	Rất tốt (nhưng không kiểm soát được)

32 of 57

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

A_i:Giá trị đo lường trọng số của output o_i trong group G

Câu hỏi q được đưa vào model và output ra G kết quả o_i

33 of 57

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

A_i:Giá trị đo lường trọng số của output o_i trong group G,

Đo lượng bằng việc điểm của output này

so với trung bình cả nhóm

Câu hỏi q được đưa vào model và output ra G kết quả o_i

Đầu ra của reward model

34 of 57

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

A_i:Giá trị đo lường trọng số của output o_i trong group G,

Đo lượng bằng việc điểm của output này

so với trung bình cả nhóm

Câu hỏi q được đưa vào model và output ra G kết quả o_i

Đầu ra của reward model

35 of 57

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Model cũ ở

bước training trước

Model mới ở

bước training hiện tại

Ở lần training hiện tại:

𝜋_old được cố định để sinh ra G kết quả o_i

Cập nhật 𝜋 với mất mát:

Đặt 𝜋_old = 𝜋, 𝜋 trở thành 𝜋_old cho lần đào tạo tiếp theo

36 of 57

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

min(...,clip(...)): đảm bảo giá trị nằm trong đoạn [1-epsilon, 1 + epsilon], ổn định training và tránh đạo hàm quá lớn

Code

37 of 57

DeepSeek RL

38 of 57

DeepSeek RL

39 of 57

40 of 57

Tại sao?

Why?

Đưa về phân phối có

Trung bình bằng 0
Độ lệch chuẩn 1

Tương tự Batch Norm/Layer Norm để ổn định training

41 of 57

42 of 57

43 of 57

44 of 57

45 of 57

46 of 57

47 of 57

48 of 57

49 of 57

Cách hoạt động

How it works?

50 of 57

Cách hoạt động

How it works?

51 of 57

Vấn đề R1-Zero

Problems of R1-Zero

52 of 57

DeepSeek R1

Deep Seek R1

Finetune base model trên một

lượng data reasoning chất lượng

53 of 57

Cold-start SFT

Lấy reasoning data từ output

của R1-Zero

Data bao gồm cả reflection bên trong

Yêu cầu model không chỉ trả lời mà phải kiểm tra và trả lời chi tiết

Deep Seek V3

Base

Không có khả năng reasoning

54 of 57

Cold-start SFT

<reasoning_process>

Các bước suy luận

</reasoning_process>

Câu trả lời

</summary>

55 of 57

Tiếp tục train reasoning trên

các bài toán phức tạp hơn: Toán, Khoa học, Lập trình

Reasoning-Oriented Reinforcement Learning (Stage 1 RL)

56 of 57

Secondary RL Alignment (All-Scenario RL)

Fine tune tiếp ưu tiên người dùng (Users Preference)

Nhiệm vụ reasoning: Dùng rule-based Reward Model
Prompt chung: Reward model (Mạng nơ ron) sử dụng human Feedback giống RLHF và DPO

57 of 57

Llama 3.x series

8B, 70B

Distillation thành Models nhỏ hơn

Distillation to Smaller Models

Deep Seek R1

800K

supervised dataset

Data

dùng để train Deepseek R1

Qwen 2.5

1.5B, 7B, 14B, 32B

Fine tune

không dùng RL

14B-parameter distilled model from DeepSeek-R1 outperformed a 32B state-of-the-art open model (QwQ-32B) on reasoning benchmarks, which is a huge gain in efficiency