文字探勘與情感分析
邱詩涵
所需套件
大綱
斷詞
詞向量
蒐集資料
01
03
02
機器學習模型
04
情緒分析
“除了價位偏高之外,別的沒得說。”
“小巧、便宜,攜帶方便”
“輕巧,2G記憶體Vista速度還不錯”
“17號訂的貨,現在都沒收到,無從評論”
“可看性一般 實用性也一般感覺白買了”
“這本書寫得一般”
讀取資料
讀取資料
中文斷詞
ckiptagger
斷詞
詞向量化 - one-hot
缺點:
詞向量化 - word2vec
詞向量化 - word2vec
詞向量化 - word2vec
詞在低維度空間位置
詞在低維度空間位置
休息時間 (っ﹏-) .。o
計算文章向量
計算文章向量
切分資料集
機器學習模型 - 訓練
機器學習模型 - 預測
機器學習模型 - 預測
Confusion Matrix
Accuracy = (TP+TN) / Total
Precision = TP / (TP+FP)
Recall = TP / (TP+FN)
F1 score =
2 / (1/Precision+1/Recall)
| 實際 YES | 實際 NO |
預測 YES | TP | FP |
預測 NO | FN | TN |
Confusion Matrix
預測
未來可改進方向
THANKS!
Any questions?
shihhan8@gmail.com