台北科技大學,經管系,陳擎文�
用新版AML
做特徵選取Feature Selection
看資料集的重要特徵變數
Feature Importance
什麼是
Feature Selection
特徵選取
為什麼要學數據的人工智慧?
預測型資料分析:可以找到影響力大的參數
這種技術在人工智慧領域稱為
Feature Selection
特徵選取
AI計算常遇到的問題
特徵欄位太多
AI計算常遇到的問題 �特徵欄位太多
特徵選取的三種方法
Filter、Wrapper、Embedded
Filter特徵選取的方法
Pearson 相關係數(r)�特徵選取的方法
= 1:X 上升時 Y 也會上升(高度正相關)
= -1 : X 上升時 Y 會下降(高度負相關)
= 0 : X 上升時,Y可能上升或是下降,XY之間沒有線性關係(無關)
Pearson 相關係數(r)�python指令與heatmap熱力圖
Pearson 相關係數(r)�python指令與heatmap熱力圖
Filter特徵選取的方法
Univariate feature selection �單變量特徵選取 (chi2 卡方檢定)
Filter特徵選取的使用差異
全都是數值欄位
混合數值欄位、類別欄位
Filter特徵選取的使用差異
第2種的特徵選取方法
建立模型model,計算學習後
就會幫你算出重要的特徵欄位
第2種的特徵選取方法
注意:
不是每一種模型model都會幫你算出重要的特徵欄位
只有少數幾種模型有這種功能
能幫你算出重要的特徵欄位的�3種模型
能幫你算出重要的特徵欄位的�3種模型
登入Azure 平台
操作介面
申請Azure免費帳號
登入Azure 平台
操作介面
申請Azure免費帳號
登入新版Azure ML 平台
使用 AML 的第一步
使用已經建立的Workspace
AML02
建立一個流程圖方式(pipeline)的模型�類似舊版的流程圖
建立pipeline/designer的draft草稿�標題:AML-12-特徵選取
建立pipeline/designer的draft草稿�標題: AML-12-特徵選取
讀入汽車價格資料集dataset
Automobile price data (Raw)
汽車價格資料集: �Automobile price data (Raw)
特徵選取的3種練習
第1種特徵選取: �Pearson correlation
第1種特徵選取: �Pearson correlation
第1種特徵選取
第1種特徵選取
第1種特徵選取�第1個o, submit,preview
方法1看�featrure importance
第1種特徵選取�第2個o, submit,preview
結論:
第2種特徵選取: �Chi squared
第2種特徵選取: �Chi squared
第2種特徵選取
第2種特徵選取�第1個o,submit,preview
挑選出10個�最重要特徵欄位
第2種特徵選取�第2個o,submit,preview
結論:
看資料的缺值
2個方法:summarize
看資料集的摘要�summarize
看資料的缺值�方法1:看summarize
看資料的缺值�方法2:在網頁搜尋Ctrl+F:NAN
若有缺值
AI模型學習訓練會出現錯誤
CleanMissingData填補缺值
填補缺值的原則,方法1
第3種特徵選取: �執行model後
顯示最要要的特徵欄位
能幫你算出重要的特徵欄位的�3種模型
能幫你算出重要的特徵欄位的�3種模型
第3種的特徵選取方法�model based特徵選取
加入1個
Edit MetaDatas元件來修改欄位型態
設定類別格式category
加入1個Edit MetaDatas元件來修改欄位型態
把『上面』欄位,都改成unchanged
注意:不要改成類別型態category
以下11個欄位,不要改變
修改以下11個欄位,改成catoegory型態
以下11個欄位,categorical
Run, Visualize:�1. symboling已經修改成Categorical Feature�
Run, Visualize:�1. symboling已經修改成Categorical Feature�直方圖變成柱狀圖
本問題是預測price
所以說迴歸問題
使用數學model
迴歸模型
Boosted Decision Tree
能幫你算出重要的特徵欄位的�3種模型
能幫你算出重要的特徵欄位的�3種模型
第3種的特徵選取方法�model based特徵選取
使用數學model
迴歸:決策樹迴歸模型
Bootsted Decision Tree regression
使用數學model迴歸模型�Boosted Decision Tree
使用數學model:迴歸:決策樹迴歸模型�Bootsted Decision Tree regression
訓練model
Train model
訓練model,Train model
設定『目標值Label』是哪個欄位?
launch column selector
設定目標值:點按tain model�🡪launch column selector🡪輸入price�
設定『目標值Label』的欄位:price
第3種特徵選取: �執行model後
顯示最要要的特徵欄位
第3種的特徵選取方法�model based特徵選取
使用permutation feature importance元件,做model base 找出最重要特徵欄位
使用permutation feature importance元件,做model base 找出最重要特徵欄位
設定permutation feature importance,評估成效比較的參數:選擇MAE(mean absolute error)
先submit,再preview 資料集�重要性前10名的排序
比較3種特徵選取
所選擇出來的前10個重要特徵變數
比較3個特徵選取方法的差異
比較3種特徵選取
所選擇出來的
feature importance
結論
比較3個特徵選取方法的差異
特徵選取的另外一種用途
用挑出的特徵資料
讓AI模型去訓練
特徵選取的另外一種用途:用挑出的特徵資料,讓AI模型去訓練
本範例內容designer的
檔案分享
本範例:share link to node
本範例:share link to graph
本範例:pipeline job