1 of 39

1

紐西蘭南島

2 of 39

培養資料分析的思維

Data-Analytic Thinking

(Chapter 1 of Data Science for Business)

2

Amazon #1 Best Seller Database Storage and Design

★★★★+half★ (184)

3 of 39

資訊科技經過許多重要的發展

  • Mainframe Computing
  • Personal Computing
  • Client/Server Computing
  • Mobile Computing
  • Cloud/Edge Computing
  • Intelligent Computing/Big Data
  • Quantum Computing

3

4 of 39

  • 多年來許多企業在資訊基礎建設上的投資使得其收集資料的能力大大的提升。
  • 今天企業個別部門幾乎天天都在收集資料,製造、供應鏈管理、顧客行為、行銷活動、工作流程等等,甚至競爭者的行動。

4

5 of 39

資料機會無所不在

  • 今天,幾乎每個產業都在想如何利用資料來提升競爭優勢。
  • 過去,企業雇用統計學家、建模者、分析師以人工方式去檢視他們的資料集合,但今天資料的量與種類已經遠超過人工分析能處理的上限。
  • 同時間,電腦已經變得強大許多,網路也無所不在,許多演算法被發明,可以進行廣泛且深入的分析。
  • 這些現象促成今天資料科學與資料探勘被廣泛的應用在解決企業各式問題上。

5

6 of 39

資料機會無所不在

  • 資料探勘已經被用在顧客關係管理上,去分析顧客行為、以控制顧客流失,同時擴大顧客的期望價值。
  • 金融業利用資料探勘做信用評分與交易,同時在營運上做舞弊偵測與員工管理。
  • 零售商如:Walmart、Amazon應用資料探勘在整個企業內,從行銷到供應鏈管理。
  • 這本書的目的就是幫助讀者以資料的觀點看企業的問題,同時明瞭從資料中萃取有用知識的原則。

6

7 of 39

WalMart例子: 2004年紐約時報---颶風 Frances

  • 我們來看紐約時報在2004年所報導的例子:
    • 颶風Frances來勢洶洶,暴風圈壟罩加勒比海,威脅著佛羅里達的大西洋海岸。居民往高地遷移。遠在阿肯色州Wal-Mart的經理認為這個情況給他們最新的資料導向武器--- 預測科技提供了一個非常好的機會。
    • 在暴風圈著陸之前,Wal-Mart的資訊長Linda M. Dillman要求他的員工根據先前颶風Charley襲擊前的幾個禮拜所發生的事去做預測。根據儲存在Wal-Mart資料倉儲系統的幾萬億位元的顧客購買歷史資訊,她認為公司可以開始預測接下來會發生什麼事而不只是等待事情的發生。

7

8 of 39

例子: 颶風Frances

  • 為什麼資料導向的預測是有用的?
  • 在颶風的路徑上,人們會先買水,但這不需要資料科學來預測。
  • 要預售銷售量當然是為了要預備充足的庫存。
  • 也許挖掘資料後,發覺在過去颶風通過路徑上有一張特別的DVD都銷售一空。但也許那張DVD全國都熱銷,而不是跟颶風將要登陸有關。

8

9 of 39

例子: 颶風Frances

  • 他們想要找到跟颶風有關,但卻並不顯著的銷售模式。
  • 這需要檢視Wal-Mart的大量數據,去找出地方上不常見的產品需求。

9

10 of 39

例子: 颶風Frances

  • 如果能先找到,就能預備好庫存,準備颶風來襲前熱賣一場。
  • 後來的確發現到過去不曉得的颶風前熱銷產品---草莓PopTarts,它比平常多賣了7倍,而最熱的銷產品是啤酒。

10

11 of 39

例子: 預測顧客流失

  • 一間假想公司MegaTelCo遇到留住客戶的問題,因為在她大西洋中區20%的電話客戶在合約到期的時候會離開,而要拉到新客戶變得更困難。

11

12 of 39

例子: 預測顧客流失

  • 電話公司今天乃是處在戰國時代---一方面要吸引別人的客戶,另一方面也要拼命留住自己的客戶。
  • 顧客從一家電話公司跳槽到另一家公司,英文稱作churn,顧客離開時,兩間公司都付出代價,原有公司營收減少,新公司一般都用誘因方案吸引別人的顧客跳槽。

12

13 of 39

例子: 預測顧客流失

  • 假設行銷部門設計出一個留客方案,而我們要從巨量資料中去找出那些客戶在合約到期前,應該提供其優惠留客方案。
  • 我們該如何利用這筆預算讓客戶跳槽的情形減到最少?

13

14 of 39

資料科學、工程、資料導向決策

  • 資料科學最終的目標乃是改進決策,這才最符合企業的直接利益。

14

15 of 39

Target 例子

  • 消費者的消費習慣是有慣性的,要他們改變是非常困難的。
  • Target的決策者知道,一個新生兒降臨一個家庭是人們改變他們消費習慣的重要時刻。
  • 用Target的話講: 一旦我們讓消費者跟我們買嬰兒尿布,他們也會買其他所有的東西。多數的零售業者知道這件事,所以他們拼命競相想將嬰兒相關的產品賣給父母。(公視解讀大數據 49:05處)

15

16 of 39

Target 例子

  • 然而,Target比競爭者早跑了一步。他們想要預測有人已經懷孕了。
  • 藉由資料科學的技術,他們分析的歷史紀錄,找到了後來真的確認懷孕的顧客。
  • 這是因為懷孕的母親會改變他們的飲食、他們的衣櫃、維他命補充品等等。
  • 這些指標套進預測模型內,然後將結果用在行銷活動中。

16

17 of 39

資料科學、工程、資料導向決策

  • 「預測模型」是本書探討的重點,它將複雜的世界簡化,專注在一些指標,而這些指標跟我們有興趣的東西有所關連。

17

18 of 39

資料科學、工程、資料導向決策

  • 本書主要討論兩種決策:
    • (1) 藉由發現資料背後的訊息來做決策
    • (2) 重複性決策,尤其是大規模的決策,藉由資料分析即使提高一點點的決策精確度都能夠獲益
  • Wall-Mart及Target的例子皆屬於第一種。

18

19 of 39

資料科學、工程、資料導向決策

  • 前面所提及的電話公司預測顧客跳槽例子為第二種決策---每個月有大量的客戶合約到期,其中有些可能就此離開。
  • 如果對這樣的顧客我們能夠較準確的預估專注在他身上的獲益有多大,因為我們有數百萬的客戶,就會積沙成塔,獲益可觀。
  • 同樣的邏輯也適用在其他的領域:直接行銷、線上廣告、金融交易、信用評分、舞弊偵測、產品推薦等等。(其他如製造業瑕疵檢測、預測性維護等亦然)

19

20 of 39

20

Netflix(網飛)的例子

  • 用戶租看的影片75%來自系統的自動推薦

  • 預測用戶對一部影片的評等誤差不會超過半顆星

21 of 39

21

Netflix的例子 (續)

  • 2013年2月Netflix推出紙牌屋」(House of Cards)影集
    • 導演:大衛芬奇 (David Fincher;《社群網戰》、《班傑明的奇幻旅程》、《鬥陣俱樂部》)
    • 主角:凱文史貝西 (Kevin Spacey;《老闆不是人》、《心理醫生》、《美國心玫瑰情》)
    • 集數:共 26 集,分兩季推出。

22 of 39

22

Netflix的例子 (續)

  • 「紙牌屋」(House of Cards)影集
    • 突破:1. 只在網路上架;2. 一次上架整季 13 集。
    • 優勢:事先根據 2,900 萬 Netflix 的會員收視行為分析,根據導演、主角、政治題材的組合,找出目標觀眾,進行精準推薦
    • 成績:IMDb 上 15,762 次評價,平均得分 9.0 (2013.2.28),上架兩週後被 IMDb MOVIEmeter 評為最受歡迎的電視影集。

23 of 39

23

Netflix 資料分析的顧客價值主張

    • 精準推薦減少客戶找尋喜好影片的時間

    • 精準推薦降低客戶花時間觀看不能令其滿意影片內容的機率

    • 創新影集播映方式,一季全部集數一次給足,讓客戶不用每週枯等一集

24 of 39

24

成功大學預測漸凍人病程 

    • 漸凍人症的病況發展難預測,成功大學資訊工程學系蔣榮先教授、楊士德教授帶領成大團隊成員方文杰博士、研究生張桓瑞、楊震,參加「世界夢想挑戰賽(DREAM Challenge)」之漸凍人病況發展預測的計算生物醫學程式設計競賽,擊敗30支來自全球知名大學及醫學研究機構專業人員,勇奪世界第一。

25 of 39

25

成功大學預測漸凍人病程 

    • DREAM Challenge為國際生醫領域極為重要的大數據(Big Data)演算競賽,創立於2006年,由美國哥倫比亞大學、美國國立衛生研究院、IBM,以及紐約科學院(The New York Academy of Sciences)贊助成立,每年提供3至5項不同主題競賽,由各組織提供資料與數據,參賽者提出運算程式模型來分析,每年均吸引世界各地眾多電腦科學、工程與統計等學者專家參與競賽。

26 of 39

26

成功大學預測漸凍人病程 

    • 蔣榮先教授指出,主辦單位提供了7千多名漸凍人症病患300多萬筆臨床檢查等相關研究數據,包括(身高、體重、家族病史、血液檢測等);參賽隊伍必需先從龐大資料、數據去篩選出與漸凍人症可能有關的6項「特徵資料」,再選擇最適合的演算法,讓演算法去分析與整合「特徵資料」,建立漸凍人症病程進展的預測模型。

27 of 39

27

成功大學預測漸凍人病程 

    • 成大團隊將臨床檢查資料所代表的意義,全部轉成數字,從300多萬筆資料中,找出與漸凍人症最相關的20幾個特徵,再篩選出數10組不同特徵組合,經由交叉驗證找出最佳特徵組合,要找出這個最佳特徵組合難度極高,是獲勝關鍵。  ���

28 of 39

28

成功大學預測漸凍人病程 

    • 成大團隊找出的六項特徵為,疾病症狀發作到試驗開始的時間長度言語能力切割食物與使用家庭日常用品的能力, 軀幹協調功能血中磷含量小腿功能,團隊依篩選出的特徵,再用交叉驗證方式挑選出最適合競賽的預測演算法-GBRT。  ���

29 of 39

將資料及資料科學視為策略性資產

  • 如果沒有適當的資料,資料科學團隊也無法做出有價值的事。(巧婦難為無米之炊)
  • 如果沒有好的資料科學的分析能力,有對的資料也無法改進決策。
  • 如同其他的資產,這是需要投資的。

29

30 of 39

將資料及資料科學視為策略性資產

  • 用心思考如何投資在資料資產上常常會有很棒的回報---90年代Signet Bank的經典故事:
  • 在80年代,為違約機率建立模型已經將金融產業從估計個人違約機率進到大尺度與市場佔有率的策略。
  • 在80年代,信用卡基本上是單一定價,有以下兩個原因:
    • (1)公司沒有適當的資訊系統去處理大規模不同的定價
    • (2)銀行管理階層覺得顧客無法接受價格差異化

30

31 of 39

將資料及資料科學視為策略性資產

  • 約在1990年,兩位有遠見的策略家(Richard Fairbanks & Nigel Morris)看到資訊科技已經夠強大,讓他們可以做先進的預測建模,然後提供不同的方案給顧客 (如價格、信用額度、初始低利率的現金借款、現金回饋、紅利點數等…)。
  • 可惜的是,沒有一間大銀行願意請他們擔任顧問,讓他們有機會可以一試。最後,他們找到維吉尼亞州的地區銀行: Signet Bank 。

31

32 of 39

將資料及資料科學視為策略性資產

  • Signet Bank的管理階層被他們說服:是獲利率而不只是違約機率才是正確的策略。
  • 他們知道信用卡顧客中間只有一小部分貢獻超過銀行超過100%的利潤(其他是損益兩平或造成損失的客戶)。
  • 如果可以為獲利率建立預測模型,他們就可以將最好的方案給最佳的顧客,甚至將大銀行的優質顧客吸引過來。

32

33 of 39

將資料及資料科學視為策略性資產

  • 他們遇到一個大問題:他們沒有適當的資料去建立獲利率的模型。

33

34 of 39

將資料及資料科學視為策略性資產

  • Signet Bank 該怎麼辦?他們決定為取得必要的資料去付出必要的代價。
  • 為了觀察之後的獲利情形,他們隨機提供不同的方案給不同的顧客。
  • 這個做法看起來很不聰明,因為銀行可能會虧錢。的確,Signet Bank的壞帳比率從績優生的2.9%升到6%。

34

35 of 39

將資料及資料科學視為策略性資產

  • 這樣的損失持續了幾年,但是資料科學家同時間將預測獲利率的模型,從收集到資料中建立起來,並不斷評估調整,最後佈署後去提高公司的獲利。

35

36 of 39

將資料及資料科學視為策略性資產

  • 儘管股東有所抱怨,公司仍認為那些損失是對資料的投資並且繼續堅持下去。
  • 至終Signet的信用卡作業完全翻身,變得獲利極好,甚至從公司獨立出來。

36

37 of 39

將資料及資料科學視為策略性資產

  • Fairbanks 與 Morris兩人成為了新公司的CEO及COO,將資料科學的原理應用到公司的各項業務,不光是招攬顧客,也擴及到留住顧客。
  • 當顧客打電話進客服並要求一個較佳的方案時,由資料推動的模型就會計算針對該顧客各種方案的獲利率,客服的電腦呈現最佳方案。
  • Fairbanks 與 Morris的新公司叫做Capital One,後來成為最大的信用卡發卡行,同時是壞帳率最低的公司之一。

37

38 of 39

將資料及資料科學視為策略性資產

  • 資料做為策略資產當然並不限於Capital One,更不限於銀行業。
  • Amazon 很早就收集線上客戶的資料,造就它高的轉台成成本。主因消費者對Amazon 提供的排名與推薦服務非常看重,因此Amazon能夠留住顧客、甚至收取費用。

38

39 of 39

將資料及資料科學視為策略性資產

  • Facebook 的價值也歸功於它龐大且獨一的資料集,包括個人的資訊與喜好,以及社交網路的架構。
  • 社交網絡已經被證明其預測的重要性,同時在建構誰會購買哪些產品的模型是特別有用的。

39