從BERT回到語言
Will we BERT back?
2021/10/15 @ LOPE
Sean Tseng
大綱
計算。語言
模型與語言
什麼叫理解?
理解是必要的嗎
探討表徵
現代模型的主要表徵手段
Rubin's vase (Rubin, 1931)
GloVe的例子
找到一組詞向量來描述詞彙的共現頻率
tl;dr of GloVe
GloVe的二階共現性直覺
怎麼用數學描述二階共現性
GloVe's F、向量與純量
向量
向量內積
GloVe期待的F: 能線性比較
GloVe期待的F: 對稱可交換
GloVe's F: 對應到一階共現機率
GloVe's F: 就是 exp(x)
詞向量內積要是log(共現機率)
GloVe模型最後一步
GloVe的模型目標
GloVe小結
往下找詞的次單位:FastText
往上找句子層次:BERT
BERT的應用不僅是在語言
句子表徵與詞彙多義
會不會self attention自動表徵了語言結構
Retrieved from Figure 6 in Manning et al. (2020)
self-att的角色
FNet vs. BERT
Lee-Thorp et al. (2021). Figure 2
回到一開始
模型適配與資料產生機制
單就這筆資料(黑點)而言,五次多項式模型已經描述得不錯;spline甚至適配得更好。甚至,如果我們均勻抽掉某些點當成測試集,模型表現可能都還可接受。但事實上,這筆資料背後的產生機制只是隨機漫步 (random walk)。
Take Home message
End
FastText
FastText把預測問題變成多個分類問題
FastText用了ngram訊息