1 of 22

Marketing DataScience Workshop

Logistic Regression Model

2020.05.16

2 of 22

2

Agenda

マーケティング

×

データサイエンス

重回帰モデルの

振り返り

Value Provided

2

Our Differentiator

2

Agenda

2

ロジスティック

回帰モデル

3 of 22

3

Agenda

マーケティング

×

データサイエンス

重回帰モデルの

振り返り

Value Provided

3

Our Differentiator

3

Agenda

3

ロジスティック

回帰モデル

4 of 22

4

Value Provided

4

Our Differentiator

4

Marketing×DataScience

4

どうして予測モデルを

構築するのか?

5 of 22

5

Value Provided

5

Our Differentiator

5

5

予測モデルを作ると意思決定の強力なサポートになる!

・経験に頼ってた施策や発注などの妥当性が分かる

・将来の機会損失やロスに繋がらないようにアクションを起こすことが出来る

・感覚では把握できなかった意外性のある変数間の関係性や因子の重要性が見つかる(仮説探索型の分析)

Marketing×DataScience

6 of 22

6

Value Provided

6

Our Differentiator

6

6

Marketing×DataScience

モデルの解釈

予測・推論

具体例

どの要因が目的変数(予測したい値)に寄与しているのかを判断

予測モデルの使い方としては

①モデルの解釈と②予測・推論の主に2つある.

要因に具体的な数値を代入することで

目的変数の予測値が得られる

クーポンよりも口コミの方が

売上に大きな影響を与えていそう!

広告のターゲットの年齢層をあげれば

クリック率がより増加しそう!

※モデルの解釈性と予測精度はトレードオフな関係にあることが多く、目的によってどちらを重視するか検討

7 of 22

7

Agenda

マーケティング

×

データサイエンス

重回帰モデルの

振り返り

Value Provided

7

Our Differentiator

7

Agenda

7

ロジスティック

回帰モデル

8 of 22

8

広告宣伝費

来店者数

y = ax + b

(来店者数)=0.525(広告宣伝費)+3080

・予測したい変数を「目的変数」その他の変数を「説明変数」として、二つの変数の関係を回帰式で表す (y = ax + b)。

・ただし、目的変数と説明変数の関係は因果関係ではない。

Value Provided

8

Our Differentiator

8

What’s Regression Analysis

8

予測モデルとしてBootcampでは回帰分析を扱いました!

9 of 22

9

・説明変数を2つ以上使いたい場合は、重回帰分析を使ってモデルの説明力をあげる。

・説明変数の選択の基本は、目的変数と正負どちらかの相関が見られるもの。

y = ax1 + bx2 + c

(ビール販売額)=86.8(気温)+41.7(湿度)+380

Value Provided

9

Our Differentiator

9

What’s Regression Analysis

9

説明変数が二つ以上の場合は重回帰分析を使う!

10 of 22

10

・モデルの妥当性を評価する指標として「補正R^2 (Adjusted R-square)」がある。

・説明変数の係数は統計的な有意性が確認できるか?

<自由度調整済み決定係数>

説明変数が目的変数の分散を何%説明しているか

<p値>

係数の値が偶然ではなく、有意に値であるかを示す。5%未満で有意とみなす。

y = ax1 + bx2 + c

(ビール販売額)=86.8(気温)+41.7(湿度)+380

Value Provided

10

Our Differentiator

10

What’s Regression Analysis

10

統計的検定により、モデルを正しく評価できるか?

11 of 22

11

・説明変数の数は妥当か?少なすぎず多すぎず。

・説明変数に強い相関はないか?多重共線性を疑えているか。

・見せかけの相関、逆相関ではないか?

重回帰分析における注意点

要素

要素

成果

要素

要素

成果

要素

要素

要素

要素

要素

要素

要素

要素

成果

要素

要素

要素が少なすぎる

要素が多すぎる

要素間の相関が強い

成果を説明するのに必要な要素が抜けて入る。

要素が重複して成果を説明してしまっている。

説明変数同士の相関が強いと多重共線性が起きる。

Value Provided

11

Our Differentiator

11

What’s Regression Analysis

11

重回帰分析の結果を鵜呑みにするな。

鋭い洞察でモデルの妥当性を見きわめよ。

12 of 22

12

Agenda

マーケティング

×

データサイエンス

重回帰モデルの

振り返り

Value Provided

12

Our Differentiator

12

Agenda

12

ロジスティック

回帰モデル

13 of 22

13

Value Provided

13

Our Differentiator

13

13

手元のデータから

サイト訪問者の購入確率を予測したい!とすると…

What’s Logistic Regression Model

購入

年齢

性別

月間訪問頻度

・・・

1

25

男性

6

・・・

0

40

女性

2

・・・

1

35

女性

5

・・・

0

50

男性

1

・・・

▼データ例

14 of 22

14

Value Provided

14

Our Differentiator

14

14

重回帰分析を使ってモデルを立てみると、

確率が1を超えたり、0より小さい値をとってしまう…

What’s Logistic Regression Model

月間訪問頻度

購入したかどうか

0 (No)

1 (Yes)

回帰直線

15 of 22

15

Value Provided

15

Our Differentiator

15

15

そこで登場するのが、ロジスティック回帰モデル.

Yes, Noといった2択で答えられる問いに対して確率を予測

・目的変数が2値(購入する?しない?)の時に利用する

・重回帰モデルは数値を予測する(回帰)、ロジスティック回帰モデルは確率を予測する(分類)

・回帰モデルでの直線ではなく、ロジスティック関数を用いて関係性を特定している

What’s Logistic Regression Model

1人あたりの広告宣伝費

購入者数

1人あたりの広告宣伝費

0 (No)

1 (Yes)

回帰モデル

ロジスティック回帰

購入したかどうか

16 of 22

16

Value Provided

16

Our Differentiator

16

16

ロジスティック回帰モデルではどのように確率を予測しているのか?

What’s Logistic Regression Model

対数オッズ(ロジット関数)

  1. 対数オッズを目的変数として重回帰分析
  2. 対数オッズをロジスティック関数に変換することで、目的変数を[0, 1]に収めて確率を求める
  3. 例えば,最終的に確率が0.5以上ならば1 (購入する), 0 (購入しない)と予測する

ロジスティック関数に変換(ロジット変換)

17 of 22

17

Value Provided

17

Our Differentiator

17

17

統計的に有意かどうかは重回帰分析と同様に確認出来る!

What’s Logistic Regression Model

・一般にP値が5%未満であれば統計的に有意とみなす

・ただし、重回帰分析と同様に多重共線性にも注意する必要がある(※予測精度への影響はない)

・実は係数を解釈する際には一捻り必要になる

d21

d22

d26

CV(商品購入の有無)

1

0

1

1

0

1

0

0

1

0

1

1

0

1

0

0

▼キャンペーンページの表示とCV

P値

係数

18 of 22

18

Value Provided

18

Our Differentiator

18

18

ただし係数の解釈には注意!

係数をオッズ比に変換することで影響度を解釈することが出来る

・ロジスティック回帰モデルでの係数は対数オッズ比.これを指数変換することでオッズ比が得られる.

・説明変数が1単位増加した時に、オッズが何倍になるかをオッズ比は示している.

 →オッズ比が1より大きければ、その説明変数を1単位増やすことで確率は上昇することがわかる!

What’s Logistic Regression Model

係数(対数オッズ比)

オッズ比

【解釈の例】

・d21というキャンペーンページがクリックされるとCVに到る確率が7.8倍

・d22というキャンペーンページがクリックされてしまうとCVに到る確率が0.17倍になる

⇨d22は改善した方が良いかも?

19 of 22

19

Value Provided

19

Our Differentiator

19

19

混同行列 (Confusion Matrix) から正解率を算出し、

どの程度予測が出来ているのかを把握する

・混同行列とは実際のデータの値と予測結果を行列(≒表)の形にまとめたもの.(2値問題の時に用いる)

・全てのデータのうち正しく予測できたデータの割合を正解率 (Accuracy Score) という.

・2値のうち片方の値にデータが集中している場合には結果の解釈に注意すべし.

What’s Logistic Regression Model

1

真陽性

(TP)

偽陰性

(FN)

偽陽性

(FP)

真陰性

(TN)

実際の値

予測された値

0

1

0

10

990

0

1000

20 of 22

20

Value Provided

20

Our Differentiator

20

20

正解率以外にも、適合率・再現率をチェックして

予測精度を評価する

・適合率 (Precision):この値が高いほど性能が良く、間違った分類が少ないことを意味する(レコメンド)

・再現率 (Recall):この値も高いほど性能が良く、(病院の検診)

・予測の目的に応じてどちらかの指標をチェック!特になければF値(適合率と再現率の調和平均)を確認.

What’s Logistic Regression Model

1

真陽性

(TP)

偽陰性

(FN)

偽陽性

(FP)

真陰性

(TN)

実際の値

予測された値

0

1

0

21 of 22

21

Value Provided

21

Our Differentiator

21

21

ロジスティック回帰は主に

マーケティング施策の評価→改善のプロセスで使われることが多い

What’s Logistic Regression Model

目的

方法

ダイレクトメール施策

Webキャンペーン施策

今までよりも

効率よくダイレクトメールを

送信したい!

顧客データにDMに反応した(1)、

しない(0)でラベルをつけて分析

どのような顧客が

DMに反応しやすいかを予測

ECサイト内に展開したキャンペーンページが購買に寄与しているのかどうかを評価したい!

Web行動データに購入した(1)、

しなかった(0)でラベルをつけて分析

キャンペーンページを通った人と通らなかった人とでの購入確率を比較

22 of 22

22

参考文献・サイト

Value Provided

22

Our Differentiator

22

Reference

22