台北科技大學,經管系,陳擎文�
特徵工程
Feature Engineering
Feature Construction
什麼時候要做
特徵工程?
什麼時候要做特徵工程?
登入舊版Azure ML Studio平台,新增一個experiment
登入舊版Azure ML Studio
修改專案名稱: AML-07-特徵工程
讀入汽車價格資料集dataset
Automobile price data (Raw)
汽車價格資料集: �Automobile price data (Raw)
visualize�注意:這個欄位,雖然是整數1,2,3,但它代表的意義的各種『代表符號類別』�
有缺值的欄位:normalized-losses
有缺值的欄位
疑問1:為什麼symbolling
(象徵)欄位要修改成類別格式
疑問2:若不改,會影響到計算的結果嗎?
為什麼symbolling (象徵)欄位要修改成類別格式
加入1個
Edit MetaDatas元件來修改欄位型態
加入1個Edit MetaDatas元件來修改欄位型態
把『上面』欄位,都改成類別型態category
修改以下11個欄位,改成catoegory型態
修改以下11個欄位,改成catoegory型態
修改以下11個欄位,改成�make catoegory型態
結論:遇到類別屬性的欄位,都要修改
結果
Run, Visualize:�1. symboling已經修改成Categorical Feature�
CleanMissingData填補缺值
填補缺值的原則,方法1
第1種的特徵工程
Feature Engineering
Feature Construction
使用Group Categorical Value 元件
新增新的Feature
使用Group Categorical Value 元件新增新的Feature
氣缸數原本的文字類別有7種
氣缸數原本的文字類別有
使用Group Categorical Value 元件新增新的Feature
使用Group Categorical Value 元件新增新的Feature
使用Group Categorical Value 元件新增新的Feature
結果:Run,Visualize
第2種的特徵工程
Feature Engineering
Feature Construction
使用Apply Math Operation元件
取代成的Feature
使用Apply Math Operation元件取代成的Feature
如何把標籤(price) 的分佈,轉成常態分佈
使用Apply Math Operation元件取代成的Feature
結果:Run,Visualize
Split把資料分割成
Train,test
(0.7),(0.3)
split Data
Split把資料分割成�Train,test (0.7),(0.3)
使用數學model
迴歸:決策樹迴歸模型
Bootsted Decision Tree regression
使用數學model:迴歸:決策樹迴歸模型�Bootsted Decision Tree regression
訓練model
Train model
訓練model,Train model
設定『目標值Label』是哪個欄位?
launch column selector
設定目標值:點按tain model�🡪launch column selector🡪輸入price�
設定『目標值Label』的欄位:price
讓模型學習,並且計算loss,accuracy:
score model(就是model.fit())
讓模型學習,並且計算loss,accuracy:�score model🡪2個連線
評估模型成效
準確率
Evaluate model
評估模型成效準確率:evaluate
先Run,再visualize 資料集
比較:有處理缺值,對迴歸預測的線性擬合度r^2的影響
誤差值的直方圖hist
結論
結論:建立特徵工程,可提高(線性擬合度r^2,決定係數),可提高預測準確率