1 of 5

KV Cache

KV Cache

2 of 5

Token 1

To

ken

1

Token 1

Token 1 new

KV Cache

KV Cache

3 of 5

Token 1

Token 2

To

ken

1

To

ken

2

Token 1

Token 2

Token 1 new

Token 2 new

KV Cache

KV Cache

4 of 5

Ta thực sự chỉ cần tính toán các giá trị này.

Các giá trị này hình thành

Bởi nhân vector Token 3 vào ma trận 3 token

Token 1

Token 2

Token 3

To

ken

1

To

ken

2

To

ken

3

Token 1

Token 2

Token 3

Token 1 new

Token 2 new

Token 3 new

KV Cache

KV Cache

Điểm Attention

Đã tính toán trước

Cache lại

Ta không quan trọng

Attention với các từ đứng sau (Casual Attention)

Token 3

To

ken

1

To

ken

2

To

ken

3

5 of 5

Token 3

To

ken

1

To

ken

2

To

ken

3

Mỗi lần thực hiện attention chỉ cần dùng attention của token hiện tại với K và V được tạo bởi k và v hiện tại nối với tensor K và V của các tính toán trước

K của các

tính toán trước

Token 1

Token 2

Token 3

Token hiện tại

Cached

Cached

KV Cache

KV Cache

V của các

tính toán trước