1 of 61

「預訓練–對齊」�(Pretrain-Alignment)�的強大與極限

TODO:

要不要講資料污染的問題

要不要講 GENERALIZATION V.S. MEMORIZATION: https://arxiv.org/abs/2407.14985

要不要講 Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

Should we talk about spoken LLM scaling law???

Not mention: TAIA: Large Language Models are Out-of-Distribution Data Learners (only the fine-tuned attention parameters are particularly beneficial when the training set's distribution does not fully align with the test set.)

Scaling law 的定義?

要不要講中文 fine-web

用合成資料不是會崩潰嗎? 怎麼解釋

====

Overview paper: https://arxiv.org/pdf/2402.01364

Knowledge conflict: overview paper : https://aclanthology.org/2024.emnlp-main.486.pdf

===

Language Model Alignment: Theory & Algorithms

https://www.youtube.com/watch?v=2AOr2Caxvr4

Controlling distribution shifts in language models: a data-centric approach. ???

https://www.youtube.com/watch?v=hNzxCByntfE

Language Modeling: A Tutorial on Data Preparation, Model Training, and Adaptation

https://www.youtube.com/watch?v=qPzZeP7t5ZQ

Overview paper about data selection: https://arxiv.org/pdf/2402.16827v1

A little guide to building Large Language Models in 2024: https://www.youtube.com/watch?v=2-SPH9hIKT8

Scaling Data-Constrained Language Models:

https://www.youtube.com/watch?v=FQk2YSgYLmU (rush)

https://www.youtube.com/watch?v=Kp5R6GZh8O0 (short)

https://www.youtube.com/watch?v=lLV-g-rGPhk (author)

NeurIPS talk about using all data

Pretrain: https://www.youtube.com/watch?v=jm2hyJLFfN8

Fine-tune:

https://medium.com/@nandinilreddy/demystifying-instruction-fine-tuning-in-large-language-models-0df732a0cec2

2 of 61

第一階段

第二階段

輸入：人工智

輸出：慧

輸入：”USER:你是誰？ AI: ”

輸出：”我”

第三階段

輸入： USER: “台灣最高的山是那座？ AI:”

“玉山”

“誰來告訴我呀”

輸出：

>

Pre-train

Supervised Fine-tuning

(SFT)

RLHF

Alignment

(alignment 有多種不同的定義)

(Finetune)

3 of 61

Pretrain 有多強大

4 of 61

Pretrain 模型根本不能用!

What is Machine Learning?

Machine learning is a field of computer science that gives computers the ability to learn without being explicitly programmed. Machine learning is a subset of artificial intelligence.

…….

LLaMA-2-7b-base:

(pretrain)

5 of 61

Alignment 前後行為差異很大

What is Machine Learning?

Machine learning is a subfield of artificial intelligence (AI) that involves the use of algorithms and statistical models to enable machines to learn from data, make decisions, and improve their performance on a specific task over time.

Machine learning algorithms are designed to recognize patterns in data and learn from it, without being explicitly programmed to do so. The algorithms can be trained on large datasets, and as they process more data, they can make better predictions or decisions.

…….

LLaMA-2-7b-chat:

(alignment)

Model with "chat" or "instruct" means "with alignment."

6 of 61

Alignment 前後行為差異很大

Source: https://arxiv.org/abs/2409.00096

7 of 61

Alignment 資料不用多

LLaMA 2

https://arxiv.org/abs/2307.09288

8 of 61

LIMA: Less Is More for Alignment

https://arxiv.org/abs/2305.11206

9 of 61

Alignment 是畫龍點睛

Pretrain

Alignment

10 of 61

但點的位置很重要

11 of 61

Alignment 資料不用多

LLaMA 2

https://arxiv.org/abs/2307.09288

12 of 61

https://arxiv.org/abs/2403.18058

240

8837

13 of 61

Ruozhiba (弱智吧)

Q: 为什么我的银行卡在高压锅里煮了一晚上，还是冻结状态
Q: 16岁了，未满18岁正常吗
Q: 一斤棉花和一斤铁，同时掉进水里你先救谁？
Q: 问一道数学问题关羽一小时能斩20个颜良华佗一小时能救17个颜良假设一共有233.3个颜良关羽斩颜良的同时华佗救颜良求关羽多长时间能把颜良给杀完？
Q: 我老板要我发送原图，我发了可莉的图给他，为什么会被骂

https://docs.qq.com/sheet/DUlZ6aURhamdwb1RO?tab=BB08J2

问一道数学问题关羽一小时能斩20个颜良华佗一小时能救17个颜良假设一共有233.3个颜良关羽斩颜良的同时华佗救颜良求关羽多长时间能把颜良给杀完？

关羽一小时能斩20个颜良，华佗一小时能救17个颜良，所以关羽和华佗一小时实际上只能减少3个颜良（20-17=3）。所以，要消灭233.3个颜良，关羽需要的时间是233.3/3=77.77小时。

一斤棉花和一斤铁，同时掉进水里你先救谁？

实际上，铁掉进水里会沉，而棉花掉进水里会浮在水面上，不需要救。所以，你不需要救任何一个。

为什么我的银行卡在高压锅里煮了一晚上，还是冻结状态

因为银行卡的冻结状态是由银行决定的，与银行卡是否被煮过没有关系。如果你的银行卡被冻结，你需要联系银行来解冻，而不是通过物理方法。

古代的皇帝想永生，为什么不给自己颁个免死金牌？

因为免死金牌只是一个象征性的物品，它不能真正阻止生命的消逝。古代的皇帝虽然拥有至高无上的权力，但他们不能改变生命的自然规律。所以，即使皇帝给自己颁发了免死金牌，也无法实现真正的永生。

变色龙趴在变色龙身上，谁跟着谁变色？

变色龙的颜色变化是根据环境变化的，而不是根据接触物体的颜色变化的。所以，变色龙趴在另一只变色龙身上，并不会导致他们互相影响颜色。他们的颜色变化仍然取决于周围环境的颜色。

一直不明白，在电梯里都是站着的为什么要说“坐电梯”

"坐电梯"这个说法并不是指在电梯里面真的坐下来，而是借用了我们日常生活中乘坐交通工具的说法。就像我们说"坐飞机"、"坐火车"一样，虽然在飞机和火车上我们也可能是站着的，但我们还是习惯说"坐飞机"、"坐火车"。这是一种惯用语，用来表示乘坐某种交通工具。所以，"坐电梯"实际上是"乘坐电梯"的简化说法。

法律并没有禁止御剑飞行为什么大家都不御剑飞行呢

因为现实中并没有真正能够御剑飞行的技能或者科技。"御剑飞行"是源自于一些武侠或者奇幻小说、电影、动画等作品中的虚构设定，现实中并无法实现。

杜甫当时那么穷，为什么不把杜甫草堂做成景点收门票钱？

因为在杜甫的时代，即唐朝，还没有现代意义上的旅游业和门票制度。而且，杜甫草堂是在杜甫去世后的宋朝由人民和政府修建的

为什么没有人能毫发无损的走出理发店？

因为理发店是用来剪发的，如果毫发无损，那就说明没有剪发，那么去理发店的目的就没有达到。

16岁了，未满18岁正常吗

是的，正常。16岁是正常的年龄阶段，未满18岁也是正常的，因为人必须经历从出生到18岁的每一个年龄阶段。

我老板要我发送原图，我发了可莉的图给他，为什么会被骂

这可能是因为你误解了老板的意思。老板要你发送的“原图”可能是指某个工作相关的图片或文件的原始版本，而不是原神游戏中的角色“可莉”的图片。所以，你发送了不相关的图片，这可能会让你的老板觉得你没有认真对待工作，因此被骂。

人只有左耳和右耳，那为什么会得中耳炎呢

中耳炎并不是指发生在人的"中间耳朵"，而是指发生在人耳朵结构中的中耳区域的炎症。人耳朵的结构大致可以分为外耳、中耳和内耳三部分，中耳炎就是中耳部分发炎。所以，即使人只有左耳和右耳，也可以得中耳炎。

英语考试前一晚,我通宵不眠复习化学,结果还是考砸了. 为什么为什么为什么...

因为你复习的是化学，但考试的是英语。你应该在考试前一晚复习英语，而不是化学。

电鱼是违法那为什么监狱里找不到一只电鳗

"电鱼"在这里有两层含义，一是使用电击方式捕鱼，这在很多地方是违法的；二是电鳗，一种能产生电击的鱼类。而监狱是用来关押犯罪人员的，电鳗作为一种动物，自然不会因为它的电击能力而被关进监狱。所以，你在监狱里找不到电鳗。

14 of 61

問題

已經 Alignment 的模型的答案

問題

?????

自己的

LLM

	Student	Teacher	Data	Cost
Alpaca	LLaMA1-7B-base	ChatGPT	52k	$100
Vicuna	LLaMA1-7B-base	ChatGPT	70k	$140
Sky-T1	Qwen2.5-32B-Instruct	QwQ	17k	$450
S1	Qwen2.5-32B-Instruct	Gemini	1k	<$50

Knowledge Distillation

不包含生資料、清理資料的成本

15 of 61

AlpaGasus

https://arxiv.org/abs/2307.08701

16 of 61

Long Is More for Alignment

https://arxiv.org/abs/2402.04833

怎麼選資料？

選最長的 ……

17 of 61

問題

已經 Alignment 的模型的答案

問題

?????

自己的

LLM

	Student	Teacher	Data	Cost
Alpaca	LLaMA1-7B-base	ChatGPT	52k	$100
Vicuna	LLaMA1-7B-base	ChatGPT	70k	$140
Sky-T1	Qwen2.5-32B-Instruct	QwQ	17k	$450
S1	Qwen2.5-32B-Instruct	Gemini	1k	<$50

Knowledge Distillation

輸入哪裡來？

不包含生資料、清理資料的成本

18 of 61

Knowledge Distillation

https://arxiv.org/abs/2409.00096

Non-instructional Fine-tuning

Juncheng Xie

前半句

?????

自己的

LLM

隨便一句話

19 of 61

Knowledge Distillation

原上半句: …… The nondiscrimination policy seeks to ensure employers with more than 10 employees
原下半句: in the city as well as those who provide housing and public accommodations ……
ChatGPT續寫: , as well as housing providers, public accommodations, and city contractors, do not discriminate based on ……
原上半句: …… Davis was recently hired as a morning anchor for CBS46. She is scheduled to
原下半句: start Jan. 2. ……
ChatGPT續寫: begin her new role despite the recent arrest. ……

https://arxiv.org/abs/2409.00096

Non-instructional Fine-tuning

Juncheng Xie

20 of 61

Knowledge Distillation

https://arxiv.org/abs/2409.00096

Non-instructional Fine-tuning

Juncheng Xie

21 of 61

Alignment 前後模型實際行為差異不大

LLM

(After alignment)

How are you ? I am

fine

LLM

(Before alignment)

How are you ? I am

fine

Unshift

Marginal

Shifted

The Unlocking Spell on Base LLMs

https://arxiv.org/abs/2312.01552

22 of 61

Alignment 前後模型實際行為差異不大

The Unlocking Spell on Base LLMs

https://arxiv.org/abs/2312.01552

23 of 61

Alignment 前後模型實際行為差異不大

The Unlocking Spell on Base LLMs

https://arxiv.org/abs/2312.01552

24 of 61

Alignment 其實很容易?

Revealing the Inherent Instructability of Pre-Trained Language Models

https://arxiv.org/abs/2410.02465v2

25 of 61

Alignment 其實很容易?

Revealing the Inherent Instructability of Pre-Trained Language Models

https://arxiv.org/abs/2410.02465v2

26 of 61

Alignment 其實很容易?

https://arxiv.org/abs/2409.14254

Instruction Following without Instruction Tuning

27 of 61

Alignment 其實很容易?

https://arxiv.org/abs/2409.14254

Instruction Following without Instruction Tuning

增加結束符號的機率

手動改變符號出現的機率

避免出現重複的符號

28 of 61

Alignment 其實很容易?

Self-Rewarding Language Models

https://arxiv.org/abs/2401.10020

LLM

(without alignment)

LLM

(without alignment)

給予評分指示

這解釋了為什麼 self-alignment 可以成功

29 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

千早愛音是MyGO!!!!!的節奏吉他手，同時也是羽丘女子學園高中一年級的學生。

輸入：誰是MyGO!!!!!的節奏吉他手？

誰是MyGO!!!!!的主唱？

LLM

輸出：千早愛音

N 個人的資料

Pretrain

N/2 個人相關的問題 Alignment

以剩下N/2 個人的問題進行測試

?????

0% 正確率

(每個人只出現一次)

Physics of Language Models: Part 3.1

30 of 61

https://mygo.miyago9267.com/

31 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

LLM

32 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

LLM

高松燈是MyGO!!!!!的主唱，就讀羽丘女子學園高一學生，亦是天文部唯一社員。

33 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

千早愛音是MyGO!!!!!的節奏吉他手，同時也是羽丘女子學園高中一年級的學生。

輸入：誰是MyGO!!!!!的節奏吉他手？

誰是MyGO!!!!!的主唱？

LLM

輸出：千早愛音

N 個人的資料

Pretrain

N/2 個人相關的問題 Alignment

以剩下N/2 個人的問題進行測試

高松燈

多種版本

34 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

LLM

千早愛音是MyGO!!!!!的節奏吉他手，同時也是羽丘女子學園高中一年級的學生。

千早愛音是羽丘女子學園高中一年級的學生，同時也是MyGO!!!!!的節奏吉他手。

原來要這樣理解！

35 of 61

如何達成有效的 Pretrain？

https://arxiv.org/abs/2309.14316

高松燈是羽丘女子學園高一學生，亦是天文部唯一社員，擔任MyGO!!!!!的主唱。

千早愛音是MyGO!!!!!的節奏吉他手，同時也是羽丘女子學園高中一年級的學生。

輸入：誰是MyGO!!!!!的節奏吉他手？

誰是MyGO!!!!!的主唱？

LLM

輸出：千早愛音

N 個人的資料

Pretrain

N/2 個人相關的問題 Alignment

以剩下N/2 個人的問題進行測試

高松燈

單一版本

多種版本

36 of 61

https://youtu.be/qycxA-xX_OY

37 of 61

現在 Pretrain 都用多大的資料？

LLaMA 3

https://arxiv.org/abs/2407.21783

DeepSeek-V3

https://arxiv.org/abs/2412.19437

38 of 61

https://arxiv.org/abs/2211.04325

39 of 61

可以從哪裡取得大量資料

https://arxiv.org/abs/2406.17557

https://huggingface.co/HuggingFaceFW

15-trillion tokens, 44TB disk space

40 of 61

資料品質的重要性

https://arxiv.org/abs/2306.11644

Textbooks Are All You Need

41 of 61

資料品質的重要性

https://arxiv.org/abs/2401.16380

Rephrasing the Web

42 of 61

RefinedWeb (Falcon LLM)

https://arxiv.org/abs/2306.01116

43 of 61

https://arxiv.org/abs/2305.16264

在有限算力、固定模型下應該儘量看更多不同的資料

44 of 61

https://arxiv.org/abs/2409.16295

Andy T. Liu

在有限算力、固定模型下應該儘量看更多不同的資料

45 of 61

資料過濾

https://arxiv.org/abs/2406.17557

https://huggingface.co/HuggingFaceFW

46 of 61

Alignment 的極限

47 of 61

The False Promise of Imitating Proprietary LLMs

https://arxiv.org/abs/2305.15717

Finetune LLaMA 1

48 of 61

Base

LLM

Base

LLM

Base

LLM

Base

LLM

範例問題

範例答案

問題

答案

問題

答案

範例問題

範例答案

範例問題

範例答案

答案

範例問題

範例答案

問題

答案

範例問題

範例答案

問題

Highly Known

Maybe Known

Weakly Known

Unknown

https://arxiv.org/abs/2405.05904

Greedy

Sample

49 of 61

https://arxiv.org/abs/2405.05904

50 of 61

“MaybeKnown” 是最有幫助的

https://arxiv.org/abs/2405.05904

51 of 61

https://arxiv.org/abs/2402.18243

LLM 自己的答案

LLM本來就會的問題

LLM 自己的答案

LLM不會的問題

正確答案

LLM不會的問題

(錯誤答案)

Case 1

Case 2

Case 3

52 of 61

RL 是 Alignment 的好方法

語言

模型

台灣最高的山是那座？

玉山

誰來告訴我呀

>

提高機率

減低機率

這不是人類強制給予的答案，這是語言模型自己生成的答案

53 of 61

Pretrain 的後遺症？

Embers of Autoregression

https://arxiv.org/abs/2309.13638

GPT 4.5 都可以答對

54 of 61

Embers of Autoregression

https://arxiv.org/abs/2309.13638

55 of 61

I use ROT13 twice

網路文化

由於 ROT13 完全不適合用於真正的保密用途，它成為一個用來形容明顯弱加密方案的俚語。批評者可能會說：「現在 56 位元 DES 加密幾乎跟 ROT13 一樣不安全。」這也引申出一些幽默用語模仿真實的術語，例如：

Double ROT13：對已使用 ROT13 加密的文字再應用一次 ROT13，可還原原始文字。
ROT26：相當於完全沒加密。
2ROT13：曾出現在一篇名為《關於 2ROT13 加密演算法》的惡搞學術論文中。
Triple ROT13：模仿 3DES，用作玩笑，其實仍等同一般的 ROT13。

早在 1980 年代，ROT13 笑話就在像 net.jokes 這類新聞群組中流行。

新聞群組 alt.folklore.urban 創造了一個詞「furrfu」，是經常被加密的感嘆詞「sheesh」的 ROT13 編碼形式。這個詞在 1992 年中期逐漸演變，當時一些人抱怨「Sheesh!」回應新手的用法太頻繁，便開始使用「furrfu」取代。

即使到了今天，在公共社群平台上使用搜尋引擎，仍能找到使用 ROT13 進行的笑話。

56 of 61

Embers of Autoregression

https://arxiv.org/abs/2309.13638

57 of 61

Logit Lens

Residual Stream

把資訊加入 Residual Stream

https://arxiv.org/abs/2401.01967

Pretrain 時看到不該看的東西後，難以真正清除

Sh*t 的機率

58 of 61

…

Pretrain 時看到不該看的東西後，難以真正清除

59 of 61

…

Pretrain 時看到不該看的東西後，難以真正清除

60 of 61

idea from: https://x.com/anthrupad/status/1622349563922362368/photo/1

Alignment

Pretrain

61 of 61

結語

Pretrain-Alignment 很強大

LLM 在 Pretrain 已經很強，Alignment 只是畫龍點睛
Pretrain 階段看過大量各式各樣的資料是關鍵

Pretrain-Alignment 有極限

在 Alignment 階段往往 LLM 只是強化原來已經知道的事情，難以學習新技能

下集預告：如何有效微調模型