1 of 34

��Model Editing: �人工智慧的微創手術

2025/05/04

2 of 34

Model Editing

一般的 Post Training

Model Editing

學習新的技能 (新語言、使用工具、推理等)

植入一項知識

現任美國總統是川普

全世界最帥的人是李宏毅

3 of 34

把 Model Editing 視為 Post-training?

全世界最帥的人是誰?

???

李宏毅

美國總統是誰?

李宏毅

(請見第一講)

訓練資料只有一筆

4 of 34

全世界最帥的人是誰?

目標答案:李宏毅

Model Editing 的評量方法

全世界最帥的人是誰?

李宏毅

誰是全世界最帥的人?

李宏毅

美國總統是誰?

川普

Reliability

Generalization

Locality

(paraphrase)

5 of 34

全世界最帥的人是誰?

目標答案:李宏毅

Model Editing 的評量方法

誰是全世界最帥的人?

李宏毅

Generalization

李宏毅是誰?

???

全世界最帥的人在哪裡工作?

???

(paraphrase)

(reverse)

(portability)

6 of 34

全世界最帥的人是誰?

誰是全世界最帥的人?

李宏毅是誰?

全世界最帥的人在哪裡工作?

誰是美國總統?

誰是全世界最高的人?

母雞卡為什麼被炎上?

全世界最帥的人是誰?

目標答案:李宏毅

Reliability

Generalization

Locality

(有顏色代表 Model Editing 後,問題的答案被修改了)

(paraphrase)

Generalization

(reverse, portability, etc.)

7 of 34

Model Editing 常見方法

Model Editing

不動參數

改變參數

人類決定如何編輯

人工智慧學習如何編輯

8 of 34

In-context Knowledge Editing (IKE)

https://arxiv.org/abs/2305.12740

(關閉 RAG 功能)

gpt-4o

9 of 34

In-context Knowledge Editing (IKE)

https://arxiv.org/abs/2305.12740

(關閉 RAG 功能)

gpt-4o

告訴模型如何使用新資訊

10 of 34

IKE

https://arxiv.org/abs/2305.12740

Reliability

Generalization

Locality

11 of 34

Model Editing 常見方法

Model Editing

不動參數

改變參數

人類決定如何編輯

人工智慧學習如何編輯

12 of 34

Rank-One Model Editing (ROME)

(這就是思想鋼印的原理)

Step 1: 找出類神經網路中跟要編輯的知識最相關的部分

Step 2: 修改該部分的參數

(參見第三講)

https://arxiv.org/abs/2202.05262

13 of 34

Layer

The

Space

Need

le

is

in

Layer

Layer

Seatle

The Space Needle is in

The Space Needle is in

Seattle

Taipei

Taipei

14 of 34

Layer

The

Space

Need

le

is

in

Layer

Layer

Layer

The

Space

Need

le

is

in

Layer

Layer

Seatle

?????

15 of 34

Layer

The

Space

Need

le

is

in

Layer

Layer

Layer

The

Space

Need

le

is

in

Layer

Layer

Seatle

?????

Seatle

16 of 34

17 of 34

Layer

The

Space

Need

le

is

in

Layer

Layer

Seatle

 

Taipei

編輯

改變

改變

18 of 34

Layer

The

Space

Need

le

is

in

Layer

Layer

Seatle

 

Taipei

 

 

 

19 of 34

 

 

 

 

 

Eiffel Tower

Paris

 

 

 

Pyramid of Khufu

Egypt

Space Needle

Seattle

 

 

 

 

 

 

 

Eiffel Tower

Pyramid of Khufu

Space Needle

Taipei

 

 

 

20 of 34

 

 

 

 

 

 

 

 

 

 

 

 

Rank-One Model Editing (ROME)

 

 

 

21 of 34

Model Editing 常見方法

Model Editing

不動參數

改變參數

人類決定如何編輯

人工智慧學習如何編輯

22 of 34

讓另外一個人工智慧學習如何編輯

由人類決定要如何進行編輯

23 of 34

誰是美國總統?

拜登

誰是美國總統?

川普

Hypernetwork

川普

 

 

 

 

編輯模型

待編輯模型

 

水分子的化學式

H2O

(不受影響)

24 of 34

Meta Learning

https://youtu.be/QNfymMRUg3M?si=GQP2H_pGyqLR6cWI

https://www.youtube.com/playlist?list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4

Meta Learning 完整介紹請見《機器學習2019》

25 of 34

如何訓練 Hypernetwork?

台北101有多高

508公尺

 

 

編輯模型

誰是全世界最帥的人

李宏毅

 

編輯模型

 

 

待編輯模型

 

???

???

???

???

26 of 34

誰是美國總統?

拜登

誰是美國總統?

川普

Hypernetwork

川普

 

 

 

 

編輯模型

待編輯模型

水分子的化學式

H2O

(不受影響)

合起來看作是一個

類神經網路

中間某一層的輸出

27 of 34

 

 

 

 

編輯

模型

待編輯

模型

 

 

 

 

 

 

 

 

 

 

 

 

編輯

模型

待編輯

模型

 

 

 

 

 

 

 

 

 

 

 

 

編輯

模型

待編輯

模型

 

 

 

 

 

 

 

Testing

Training

28 of 34

 

 

待編輯

模型

 

 

 

 

編輯模型

待編輯

模型

台北101有多高

508公尺

台北101有多高

508公尺

g

gradient descent

 

29 of 34

 

 

待編輯

模型

台北101有多高

508公尺

gradient descent

 

Neural

Network

g

e

編輯模型

https://arxiv.org/abs/2104.08164

https://arxiv.org/abs/2110.11309

 

 

 

 

編輯模型

待編輯

模型

台北101有多高

508公尺

30 of 34

 

 

待編輯

模型

台北101有多高

508公尺

gradient descent

 

Neural

Network

g

e

編輯模型

 

1024

1024

1024 x 1024

1024 x 1024

1024 x 1024

31 of 34

台北101有多高

508公尺

gradient descent

 

Neural

Network

g

e

編輯模型

1024 x 1024

1024 x 1024

1024

1024

 

 

 

MEND

https://arxiv.org/abs/2110.11309

1024

1024

 

1024

 

1024

Neural

Network

1024

1024

 

1024

 

1024

32 of 34

https://speech.ee.ntu.edu.tw/~tlkagk/courses/MLDS_2015_2/Lecture/DNN%20backprop.ecm.mp4/index.html

1024

1024

 

 

 

33 of 34

Model Editing 常見方法

Model Editing

不動參數

改變參數

人類決定如何編輯

人工智慧學習如何編輯

34 of 34

To Learn More …

https://zjunlp.github.io/project/KnowEdit/