1 of 24

大型語言模型修練史

2 of 24

第一階段

第二階段

第三階段

自我學習，累積實力

名師指點，發揮潛力

參與實戰，打磨技巧

3 of 24

背景知識：文字接龍

原本的目標

拆解成一連串文字接龍

生成文字

臺灣最高的山是哪座？

玉山

語言模型

臺灣最高的山是哪座？

玉

語言模型

臺灣最高的山是哪座？

山

玉

語言模型

臺灣最高的山是哪座？

[END]

玉山

token

4 of 24

背景知識：機器怎麼學會做文字接龍？

機器學習可以把數十億個參數找出來

語言模型

未完成句子

下一個 token

有數十億個未知參數的函式

訓練資料

輸入：人工智

輸出：慧

輸入：不要忘了今天來開

輸出：會

輸入：床前明月

輸出：光

…

未完成句子

下一個 token

訓練, training (學習, learning)

測試, testing (推論, inference)

模型：Transformer

5 of 24

所有的階段都是在學文字接龍，只是訓練資料不同

第一階段

第二階段

第三階段

自我學習，累積實力

名師指點，發揮潛力

參與實戰，打磨技巧

6 of 24

找參數的挑戰

最佳化

(Optimization)

參數

超參數

(hyperparameter)

訓練可能會失敗 (找到的參數沒有符合訓練資料)

設定

算力

輸入：人工智

輸出：慧

輸入：不要忘了今天來開

輸出：會

輸入：床前明月

輸出：光

…

訓練資料

怎麼辦？換一組超參數再上一次!

7 of 24

找參數的挑戰

參數

訓練

資料

最佳化

貓 or 狗

貓

狗

訓練成功!

(符合訓練資料)

黑色是貓

黃色是狗

Overfitting

訓練成功，但測試失敗

機器學習時只管找到的參數有沒有「符合」訓練資料，不管有沒有道理

8 of 24

https://youtu.be/WQY85vaQfTI?si=DR8fnpmbvi7bmfsn&t=1535

為什麼類神經網路可以正確分辨寶可夢和數碼寶貝呢？

9 of 24

如何讓機器找到比較「合理」的參數

參數

訓練

資料

最佳化

貓

狗

黑色是貓

黃色是狗

機器學習時只管找到的參數有沒有「符合」訓練資料，不管有沒有道理

增加訓練資料的多樣性

狗

貓

10 of 24

如何讓機器找到比較「合理」的參數

參數

訓練

資料

最佳化

超參數

(hyperparameter)

設定

“train from scratch”

初始參數

(從這裡開始找起)

隨機

比較接近初始化參數

11 of 24

如何讓機器找到比較「合理」的參數

參數

訓練

資料

最佳化

超參數

(hyperparameter)

設定

初始參數

(從這裡開始找起)

「好」的參數

比較接近初始化參數

比較可能「合理」

上哪找？？？

“先驗知識”

12 of 24

第一階段

第二階段

第三階段

自我學習，累積實力

名師指點，發揮潛力

參與實戰，打磨技巧

13 of 24

需要多少文字才夠學會文字接龍？

https://arxiv.org/abs/2011.04946

語言

知識

世界

知識

語言知識

世界知識

這個人突然就

words

水的沸點是摄氏

在低壓下

五十度

跑

飛

的

一百度

14 of 24

任何文字資料都可以拿來學文字接龍

“人工智慧真神奇!”

大量文字資料

網路

人工介入很少

參數

輸入：人

輸出：工

輸入：人工

輸出：智

輸入：人工智

輸出：慧

輸入：人工智慧

輸出：真

訓練資料

要多少有多少

Self-supervised Learning (自督導式學習)

15 of 24

資料清理

Scaling Language Models: Methods, Analysis & Insights from Training Gopher

過濾有害內容

去除 HTML tag

(保留項目符號等)

去除「低品質」資料

為了實驗的嚴謹

去除重複資料

https://arxiv.org/abs/2112.11446

Source of image:

Midjourney

GPT-3/The Pile/PaLM 使用「資料品質」分類器

高品質的文句在資料訓練會被多次重覆

Deduplicating Training Data Makes Language Models Better

https://arxiv.org/abs/2107.06499

重複了 61,036 次!

16 of 24

所有文字資料都能拿來學文字接龍嗎？

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

https://openai.com/blog/openai-and-journalism

17 of 24

在 ChatGPT 之前的 GPT 系列 ……

Model size:

117M

Data size:

GPT-1

(2018)

函式的參數量(複雜程度)

拿來學文字接龍的資料量

人工智慧的天資

後天的努力

7000

books

18 of 24

在 ChatGPT 之前的 GPT 系列 ……

Model size:

7000

books

1542M

117M

Data size:

40GB

GPT-2

(2019)

GPT-1

(2018)

(檔案大小)

19 of 24

CoQA

GPT-2

https://openai.com/blog/better-language-models/

問答上表現如何？

20 of 24

在 ChatGPT 之前的 GPT 系列 ……

Model size:

1542M

117M

175B

Data size:

580GB

GPT-3

(2020)

閱讀哈利波特全集 30 萬遍

GPT-2

(2019)

GPT-1

(2018)

7000

books

40GB

(檔案大小)

300B tokens

21 of 24

GPT-3

https://arxiv.org/abs/2005.14165

22 of 24

再訓練更大的模型也沒用 ……

https://ai.googleblog.com/2022/11/better-language-models-without-massive.html

23 of 24

為什麼語言模型不能好好回答問題？

因為其實你也沒這樣教他 ……

“人工智慧真神奇!”

大量文字資料

網路

24 of 24

第一階段

第二階段

第三階段

自我學習，累積實力

名師指點，發揮潛力

參與實戰，打磨技巧

語言模型跟據網路資料學了很多東西，卻不知道使用方法

就好像有上乘內功，卻不知道使用的方法