1 of 56

Deep Seek Family

Deep Seek Family

2 of 56

Tiêu chí

DeepSeek V1

DeepSeek V2 / V2.5

DeepSeek V3

DeepSeek R1 / R1-Zero

Ngày phát hành

Tháng 11 năm 2023

Tháng 5 / 9 năm 2024

Tháng 12 năm 2024

Tháng 1 năm 2025

Kiến trúc

Mô hình Transformer dày đặc với 67 tỷ tham số

(Mixture-of-Experts - MoE) với (Multi-head Latent Attention - MLA); hỗ trợ (KV caching)

671 tỷ tham số với 256 chuyên gia; 37 tỷ tham số hoạt động mỗi lần; sử dụng MLA và KV caching

Dựa trên kiến trúc V3; bao gồm biến thể R1-Zero được huấn luyện hoàn toàn bằng (Reinforcement Learning - RL)

Phương pháp huấn luyện

(Supervised Fine-Tuning - SFT)

SFT với các tối ưu hóa về hiệu suất

SFT với dữ liệu huấn luyện lên đến 14,8 nghìn tỷ token; chi phí huấn luyện hiệu quả

Huấn luyện hai giai đoạn: SFT sau đó là RL sử dụng (Group Relative Policy Optimization - GRPO); R1-Zero chỉ sử dụng RL

Khả năng suy luận

Khả năng suy luận cơ bản

Cải thiện so với V1

Nâng cao khả năng suy luận với xử lý ngữ cảnh tốt hơn

Suy luận nâng cao với khả năng tự xác minh và phản ánh; thể hiện "khoảnh khắc Aha!" trong giải quyết vấn đề

Hiệu suất benchmark

Cạnh tranh nhưng không dẫn đầu

Vượt trội hơn các phiên bản trước

Vượt qua LLaMA 3.1 và Qwen 2.5; tiệm cận GPT-4o và Claude 3.5 Sonnet

Vượt qua hoặc ngang bằng OpenAI o1 trong các bài toán toán học (AIME: 79.8%, MATH-500: 97.3%), lập trình (Codeforces: 96.3%) và suy luận

Giới hạn token

Không rõ

Không rõ

Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài

Hỗ trợ lên đến 128K token đầu vào; duy trì ngữ cảnh tốt trong các tương tác dài

Hiệu quả chi phí

Trung bình; yêu cầu tài nguyên tính toán cao hơn

Tiết kiệm hơn so với V1

Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 5,58 triệu USD

Rất hiệu quả về chi phí; chi phí huấn luyện khoảng 6 triệu USD so với ước tính 100 triệu USD của GPT-4

Mã nguồn mở

Có, theo giấy phép MIT

Có, theo giấy phép MIT

Có, theo giấy phép MIT

Có, theo giấy phép MIT

So sánh

Comparision

3 of 56

Các kỹ thuật nổi tiếng

Multi-Head Latent Attention

DeepSeekMoE mixture of experts

Deep Seek v3

Deep Seek v3

4 of 56

Multi-Head Latent Attention

Multi-Head Latent Attention

Vector biểu diễu của vị trí token-t trước khi đưa vào attention

Số lượng head

Chiều mỗi head

5 of 56

Deep Seek v3

Deep Seek v3

Giải thích

Latent Attention (MLA)

Nén token query

Nén token key

6 of 56

Nén Key và Value

Key and Value Compression

Nhân ma trận để giảm chiều h_t

7 of 56

Nén Key và Value

Key and Value Compression

Mục tiêu: Chia heads

8 of 56

Nén Key và Value

Key and Value Compression

9 of 56

Nén Key và Value

Key and Value Compression

10 of 56

Nén Key và Value

Key and Value Compression

(64, 4096)

(4096, 1)

(64, 1)

11 of 56

Nén Key và Value

Key and Value Compression

Cuối cùng thu được n head

Mỗi head và 1 vector 192 giá trị

12 of 56

Nén Query

Query Compression

13 of 56

Nén Query

Query Compression

Chia 8 heads

Chia 8 heads

(8, 128)

(8, 64)

(8, 192)

(8, 192)

(8, 128)

14 of 56

Nén Query

Query Compression

15 of 56

Tại sao rotary của Keys và Value không chia heads mà query thì chia heads?

16 of 56

Keys được lưu lại trong quá trình sinh (generation), vì vậy:

  • Chúng ta muốn giảm thiểu kích thước bộ nhớ lưu trữ KV cache (Key-Value cache)
  • Chỉ cần tính một vector RoPE cho key ​ dùng chung cho tất cả các heads → tiết kiệm bộ nhớ
  • Đó là lý do keys chia sẻ cùng một vector RoPE (Rotary Positional Embedding)

Queries thì không được lưu (not cached) và được tính mỗi khi sinh một token, nên:

  • Không bị giới hạn bộ nhớ → ta có thể sử dụng RoPE riêng cho từng head
  • Mỗi head có thể linh hoạt hơn trong việc xác định vị trí (positional attention bias) theo cách riêng

17 of 56

DeepSeekMoE mixture of experts

DeepSeekMoE

Giải thích

Mixture of Experts

256

128

512

1024

18 of 56

Vector đầu vào của token t

shared experts

routed experts

Feed-Forward Network cho shared expert thứ i

Feed-Forward Network cho routed expert thứ i

Giá trị cổng (gating value) chuẩn hóa​ trên K chuyên gia để đảm bảo tổng của chúng bằng 1.

Vector sẽ học

Lựa chọn top K giá điểm từ tất cả các routed experts

Điểm Affinity Score của một routed expert

19 of 56

MoE flow

MoE flow

Khởi tạo vector ei

Tính điểm affinity scores thông qua dot product và sigmoid activation.

Sử dụng cơ chế cổng để xác định những chuyên gia active

20 of 56

Shared vs Routed Experts

Shared vs Routed Experts

Shared Experts

Routed Experts

Hoạt động với mọi token, xử lý tri thức chung giữa các token (general knowledge)

Ổn định gradient khi đào tạo

Một số lượng chuyên gia nhất định active cho một token cụ thể

Xử lý tri thức cho token cụ thể (Token-specific specialization)

Giảm tính toán so với việc sử dụng toàn bộ experts

21 of 56

Training Pipeline

Training Pipeline

Deep Seek V3

Base

Deep Seek R1 Zero

Không sử dụng reward model mạng nơ ron

mà dùng Rule based

Không có khả năng reasoning

22 of 56

Một số mẫu

Samples

23 of 56

Inference prompt

Inference prompt

24 of 56

Mẫu

Samples

Deep seek R1 Zero

không cần data như thế này

25 of 56

Aha moment

Aha moment

Self-reflection

Khi mô hình reasoning sai, mô hình resoning lại

26 of 56

Aha moment

Aha moment

27 of 56

Reflection and Self-Verification Behavior

Reflection and Self-Verification Behavior

28 of 56

Reflection and Self-Verification Behavior

Reflection and Self-Verification Behavior

29 of 56

Benchmarks

Benchmarks

30 of 56

DeepSeek RL

DeepSeek RL

31 of 56

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

Ai :Giá trị đo lường trọng số của output oi trong group G

Câu hỏi q được đưa vào model và output ra G kết quả oi

32 of 56

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

Ai :Giá trị đo lường trọng số của output oi trong group G,

Đo lượng bằng việc điểm của output này

so với trung bình cả nhóm

Câu hỏi q được đưa vào model và output ra G kết quả oi

Đầu ra của reward model

33 of 56

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Tránh tối ưu quá xa

so với model ban đầu

Ai :Giá trị đo lường trọng số của output oi trong group G,

Đo lượng bằng việc điểm của output này

so với trung bình cả nhóm

Câu hỏi q được đưa vào model và output ra G kết quả oi

Đầu ra của reward model

34 of 56

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

Model cũ ở

bước training trước

Model mới ở

bước training hiện tại

Ở lần training hiện tại:

  • 𝜋old được cố định để sinh ra G kết quả oi

  • Cập nhật 𝜋 với mất mát:

  • Đặt 𝜋old = 𝜋, 𝜋 trở thành 𝜋old cho lần đào tạo tiếp theo

35 of 56

Giải thích công thức Group Relative Policy Optimization (GRPO) trong DeepSeek

Group Relative Policy Optimization (GRPO)

min(...,clip(...)): đảm bảo giá trị nằm trong đoạn [1-epsilon, 1 + epsilon], ổn định training và tránh đạo hàm quá lớn

Code

36 of 56

DeepSeek RL

DeepSeek RL

37 of 56

DeepSeek RL

DeepSeek RL

38 of 56

39 of 56

Tại sao?

Why?

Đưa về phân phối có

  • Trung bình bằng 0
  • Độ lệch chuẩn 1

Tương tự Batch Norm/Layer Norm để ổn định training

40 of 56

41 of 56

42 of 56

43 of 56

44 of 56

45 of 56

46 of 56

47 of 56

48 of 56

Cách hoạt động

How it works?

49 of 56

Cách hoạt động

How it works?

50 of 56

Vấn đề R1-Zero

Problems of R1-Zero

51 of 56

DeepSeek R1

Deep Seek R1

Finetune base model trên một

lượng data reasoning chất lượng

52 of 56

Cold-start SFT

Cold-start SFT

Lấy reasoning data từ output

của R1-Zero

Data bao gồm cả reflection bên trong

Yêu cầu model không chỉ trả lời mà phải kiểm tra và trả lời chi tiết

Deep Seek V3

Base

Không có khả năng reasoning

53 of 56

Cold-start SFT

Cold-start SFT

<reasoning_process>

Các bước suy luận

</reasoning_process>

<summary>

Câu trả lời

</summary>

54 of 56

Tiếp tục train reasoning trên

các bài toán phức tạp hơn: Toán, Khoa học, Lập trình

Reasoning-Oriented Reinforcement Learning (Stage 1 RL)

Reasoning-Oriented Reinforcement Learning (Stage 1 RL)

55 of 56

Secondary RL Alignment (All-Scenario RL)

Secondary RL Alignment (All-Scenario RL)

Fine tune tiếp ưu tiên người dùng (Users Preference)

  • Nhiệm vụ reasoning: Dùng rule-based Reward Model
  • Prompt chung: Reward model (Mạng nơ ron) sử dụng human Feedback giống RLHF và DPO

56 of 56

Llama 3.x series

8B, 70B

Distillation thành Models nhỏ hơn

Distillation to Smaller Models

Deep Seek R1

800K

supervised dataset

Data

dùng để train Deepseek R1

Qwen 2.5

1.5B, 7B, 14B, 32B

Fine tune

không dùng RL

14B-parameter distilled model from DeepSeek-R1 outperformed a 32B state-of-the-art open model (QwQ-32B) on reasoning benchmarks, which is a huge gain in efficiency​