1 of 7

在雲端平台上建立機器學習機制用於資料分析與預測運用

詹佳芸,台科大,電子工程,105

2 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

摘要

銷售預測系統對於企商業策略以及業務發展更是重要的一環。將零售商之實際銷售數據根據特徵各別進行統計與視覺化分析,並且篩選出對於訓練預測模型建立最有影響力的特徵組合。

基於三種機器學習的技術,其中包含線性回歸(Linear Regression)、決策樹(Decision Tree),以及隨機森林(Random Forest),建立出不同的銷售預測模型,並且反覆調整特徵組合,以提升其精準度。

實驗發現Random Forest的預測模型精準度最高。經過特徵組合的改良,MAPE(平均絕對誤差百分比)從0.32740降低到0. 28912,其誤差值降低了11.7%,RMSPE(均方根誤差百分比)值從0.51074降低到0. 41805,誤差值降低了18.1%

3 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

結論

機器學習以有多年的歷史,隨著近年來網路和移動通訊的發展,資料量不斷的增長,大數據的分析與預測之應用更是受到重視。

許多機器學習預測的模型,例如Linear Reession[4,5]、Neural Network[6,]、Decision Tee[8-10]、Random Forest[11-3。其中有許多針對商用數據析之應用[7,4],[15]根據超市真實的消費收據資料進行資料採礦的分析,將顧客分類成不同的群體,並進行模擬和比對[9]提出了一個售預系統,使用分群以及決策樹的方法,分析紡織業的銷售紀錄,並且作中長期的預測。

然而以上方法無法針對銷售數據分析進行各種機器學習方法之比較並且建立在雲端平台上,因此本篇論文提出在雲端平台上以不同機器學習模型分析及預測銷售數據之機制。

4 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

探討參考文獻與方法

機器學習預測的模型如Linear Reession[4,5]、Neural Network[6,]、Decision Tee[8-10]、RandomForest[11-3] 許多針對商用數據析之應用[7,4]

[15]根據超市真實的消費收據資料進行資料採礦的分析,將顧客分類成不同的群體,並進行模擬和比對

[9]提出了一個預測銷售系統,使用分群以及決策樹的方法,分析紡織業的銷售紀錄,並且作中長期的預測

以上方法無法針對銷售數據分析進行各種機器學習方法之比較並且建立在雲端平台上,本篇論文提出在雲端平台上以不同機器學習模型分析及預測銷售數據之機制

5 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

相關技術

Apache Spark 是開放原始碼的叢集運算框架

支援三種程式語言:Scala、Python、JAVA

Spark使用以將資料加至集記憶體

並多次對其進行查詢

適合用於機器學習演算法

Spark把Job分很多個Stage

這些Stage之間彼此相依

組成了有向無環圖(DAG)

且一個Stage內包含了一系列的流水線

6 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

線性回歸(Linear Regression)

根據因變數和自變數之間的關係進行建模

是一個或多個回歸數的模型參數的線性組合

決策樹(Decision Tree)分為

分類樹(Classfication Tree)是當預測結果能為離散類型時所使用概念

回歸樹(Reression Tree)預測結果能為實數(如價格、時間)所使用概念

與人類決策流程相近

隨機森林(Random Forest)建立銷售數據之預測模型

是一個包含多棵決策樹,通過集成學習(Ensemble Learning)的演算法。

每次建立決策樹重複取樣以boostrap的方式進行訓練(樣本差異)

訓練時做特徵選取(featureselection)(隨機性)

隨機森林有通用性且避免了過擬合(overfitting)

隨機森林在回歸中,會計算所有決策樹預測總和之平均(預測值)

相關技術

本篇論文使用Spark MLlib器學習演算法對資料進行析預測

MLlib是一個關於機器學習的框架,提供許多類型的機器學習算法

7 of 7

在雲端平台上建立機器學習機制用於資料分析與預測

Spark作為主要系統之運算框架

YAR管理資源

HS作為資料儲存系統

PySpark上Python編寫程序

MLlib之算法建立機器學習之模型

建立架構

資料切割(DataSplit)

特徴選取(Featureture Selection)

訓練模型建立(Training Model)

預測(Prediction)

評估結果(Evaluation)

數據來自Rossmann彩妝行CSV檔,2013年-2015年共117209筆的銷售數據資料

最常見的機器學習預測精準度之指標 MAPE和RMSPE作為本篇論文之效能評估方式

對於預測未來之銷售狀況而言,如預期般地,Linearrssion的準確度最低

由於這些資料並非線性結構而RandomForest的預模型準確度最高

經過實驗改良

MAPE值從0.32740降低到0.28912,其誤差值降低了11.7%

RMSPE值從.51074降低到4805,誤差值降低了18.1%

將原本的特徵加上成功因素為資料前處理和特徵選取作改良與延伸,

個別分析最具影響力的特徵值,作為預測模型之訓練因子