KV Cache
KV Cache
Token 1
To
ken
1
Token 1
Token 1 new
KV Cache
KV Cache
Token 1
Token 2
To
ken
1
To
ken
2
Token 1
Token 2
Token 1 new
Token 2 new
KV Cache
KV Cache
Ta thực sự chỉ cần tính toán các giá trị này.
Các giá trị này hình thành
Bởi nhân vector Token 3 vào ma trận 3 token
Token 1
Token 2
Token 3
To
ken
1
To
ken
2
To
ken
3
Token 1
Token 2
Token 3
Token 1 new
Token 2 new
Token 3 new
KV Cache
KV Cache
Điểm Attention
Đã tính toán trước
Cache lại
Ta không quan trọng
Attention với các từ đứng sau (Casual Attention)
Token 3
To
ken
1
To
ken
2
To
ken
3
Token 3
To
ken
1
To
ken
2
To
ken
3
Mỗi lần thực hiện attention chỉ cần dùng attention của token hiện tại với K và V được tạo bởi k và v hiện tại nối với tensor K và V của các tính toán trước
K của các
tính toán trước
Token 1
Token 2
Token 3
Token hiện tại
Cached
Cached
KV Cache
KV Cache
V của các
tính toán trước