大型語言模型修練史
第一階段
第二階段
第三階段
自我學習,累積實力
名師指點,發揮潛力
參與實戰,打磨技巧
背景知識:文字接龍
原本的目標
拆解成一連串文字接龍
生成文字
臺灣最高的山是哪座?
玉山
語言模型
臺灣最高的山是哪座?
玉
語言模型
臺灣最高的山是哪座?
山
玉
語言模型
臺灣最高的山是哪座?
[END]
玉山
token
背景知識:機器怎麼學會做文字接龍?
機器學習可以把數十億個參數找出來
語言模型
未完成句子
下一個 token
有數十億個未知參數的函式
訓練資料
輸入:人工智
輸出:慧
輸入:不要忘了今天來開
輸出:會
輸入:床前明月
輸出:光
…
…
未完成句子
下一個 token
訓練, training (學習, learning)
測試, testing (推論, inference)
模型:Transformer
所有的階段都是在學文字接龍,只是訓練資料不同
第一階段
第二階段
第三階段
自我學習,累積實力
名師指點,發揮潛力
參與實戰,打磨技巧
找參數的挑戰
最佳化
(Optimization)
參數
超參數
(hyperparameter)
訓練可能會失敗 (找到的參數沒有符合訓練資料)
設定
算力
輸入:人工智
輸出:慧
輸入:不要忘了今天來開
輸出:會
輸入:床前明月
輸出:光
…
…
訓練資料
怎麼辦?換一組超參數再上一次!
找參數的挑戰
參數
訓練
資料
最佳化
貓 or 狗
貓
貓
狗
狗
訓練成功!
(符合訓練資料)
黑色是貓
黃色是狗
Overfitting
訓練成功,但測試失敗
機器學習時只管找到的參數有沒有「符合」訓練資料,不管有沒有道理
https://youtu.be/WQY85vaQfTI?si=DR8fnpmbvi7bmfsn&t=1535
為什麼類神經網路可以正確分辨寶可夢和數碼寶貝呢?
如何讓機器找到比較「合理」的參數
參數
訓練
資料
最佳化
貓
貓
狗
狗
黑色是貓
黃色是狗
機器學習時只管找到的參數有沒有「符合」訓練資料,不管有沒有道理
增加訓練資料的多樣性
狗
貓
如何讓機器找到比較「合理」的參數
參數
訓練
資料
最佳化
超參數
(hyperparameter)
設定
“train from scratch”
初始參數
(從這裡開始找起)
隨機
比較接近初始化參數
如何讓機器找到比較「合理」的參數
參數
訓練
資料
最佳化
超參數
(hyperparameter)
設定
初始參數
(從這裡開始找起)
「好」的參數
比較接近初始化參數
比較可能「合理」
上哪找???
“先驗知識”
第一階段
第二階段
第三階段
自我學習,累積實力
名師指點,發揮潛力
參與實戰,打磨技巧
需要多少文字才夠學會文字接龍?
https://arxiv.org/abs/2011.04946
語言
知識
世界
知識
語言知識
世界知識
這個人突然就
words
水的沸點是摄氏
在低壓下
五十度
跑
飛
的
一百度
任何文字資料都可以拿來學文字接龍
“人工智慧真神奇!”
大量文字資料
網路
人工介入很少
參數
輸入:人
輸出:工
輸入:人工
輸出:智
輸入:人工智
輸出:慧
輸入:人工智慧
輸出:真
訓練資料
要多少有多少
Self-supervised Learning (自督導式學習)
資料清理
Scaling Language Models: Methods, Analysis & Insights from Training Gopher
過濾有害內容
去除 HTML tag
(保留項目符號等)
去除「低品質」資料
為了實驗的嚴謹
去除重複資料
https://arxiv.org/abs/2112.11446
Source of image:
Midjourney
Deduplicating Training Data Makes Language Models Better
https://arxiv.org/abs/2107.06499
重複了 61,036 次!
所有文字資料都能拿來學文字接龍嗎?
https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
https://openai.com/blog/openai-and-journalism
在 ChatGPT 之前的 GPT 系列 ……
Model size:
117M
Data size:
GPT-1
(2018)
函式的參數量(複雜程度)
拿來學文字接龍的資料量
人工智慧的天資
後天的努力
7000
books
在 ChatGPT 之前的 GPT 系列 ……
Model size:
7000
books
1542M
117M
Data size:
40GB
GPT-2
(2019)
GPT-1
(2018)
(檔案大小)
CoQA
GPT-2
https://openai.com/blog/better-language-models/
問答上表現如何?
在 ChatGPT 之前的 GPT 系列 ……
Model size:
1542M
117M
175B
Data size:
580GB
GPT-3
(2020)
閱讀哈利波特全集 30 萬遍
GPT-2
(2019)
GPT-1
(2018)
7000
books
40GB
(檔案大小)
(檔案大小)
300B tokens
GPT-3
https://arxiv.org/abs/2005.14165
再訓練更大的模型也沒用 ……
https://ai.googleblog.com/2022/11/better-language-models-without-massive.html
為什麼語言模型不能好好回答問題?
“人工智慧真神奇!”
大量文字資料
網路
第一階段
第二階段
第三階段
自我學習,累積實力
名師指點,發揮潛力
參與實戰,打磨技巧
語言模型跟據網路資料學了很多東西,卻不知道使用方法
就好像有上乘內功,卻不知道使用的方法