1 of 57

怖くない!ざっくり学ぶ統計

野村康之(21.10.29.)

2 of 57

統計がわかると嬉しいこと!

・平均、最大値、最小値にとらわれないデータの解釈

500

0

500

1000

0

年収

会社B

会社A

人数

・ばらつきがあるデータの違いを量的に説明

2つのデータは違うもの

由来と考えていいの?

3 of 57

セミナーの目標

・母平均、母分散、標本平均、標本分散、不偏分散の

 違いを説明できる

・エラーバーをつけるときに、標準偏差か標準誤差か、

 選択をできる

・適切な検定を選ぶことができる

4 of 57

セミナーのお品書き

・私たちは分布を知りたい

・基本的な統計量

・偏差か誤差か

・検定のこころ

5 of 57

私たちは分布(母集団)を知りたい

中葉胚性上皮腫瘍

死亡までの中央値は癌発見後8ヶ月

6 of 57

私たちは分布(母集団)を知りたい

『中央値は神のお告げではない』

The Median Isn't the Message

by Stephen Jay Gould

7 of 57

データには分布がある

大きさ

頻度

この形質の個体のみ?

大きさ

頻度

いろんな形質の個体が

いろんな頻度で存在

population thinking

8 of 57

私たちは分布(母集団)を知りたい

頻度

母集団(真の分布)

全個体の形質の頻度分布

知るのは無理!

標本抽出

標本、サンプル

一部の個体の形質の頻度分布

知ることができる

推定

母平均 μ

母分散 σ2

標本平均 x

標本分散 s2

推定

統計量

9 of 57

基本的な統計量

標本=手もとにあるnの観測値

   nは標本の大きさ、サンプルサイズと呼ばれる

x1, x2, … xn

標本平均=分布の「中央」の値

     母平均の推定値

E = x =

標本の大きさ

観測値の和

n

xi

=

1

Σ

i = 1

n

標本分散=分布のばらつきの指標

s2 =

標本の大きさ

偏差の平方和

=

(xi – x )2

n

1

Σ

i = 1

n

偏差: xi – x

10 of 57

基本的な統計量

標本平均の平均 = 母平均

このような母集団の統計量と一致する標本から得られた統計量を

不偏推定量Unbiased estimatorという。

1) 平均0, 分散1の正規分布から乱数を3つ生成

2) 標本平均を計算

3) 1)~2)を10000回繰り返す

4) 標本平均の平均を計算

5) 母平均に近くなることを確認

標本平均の平均→

母平均↑

11 of 57

基本的な統計量

不偏分散=分布のばらつきの指標

     母分散のより良い推定値

n – 1

1

(xi – x )2

Σ

i = 1

n

U = σ2 =

標準偏差=分布のばらつきの指標

     母標準偏差のより良い推定値

     平均との足し引きで分布の感じがつかめる

n – 1

1

(xi – x )2

Σ

i = 1

n

σ = S.D. =

12 of 57

基本的な統計量(ちょっと深いところ)

標本分散が小さくなる簡単な説明:

標本分散の定義から、標本平均を変数yにした関数を微分して、

(s(y)2)’ =

(xi – y)2

n

1

Σ

i = 1

n

(

)’

n

1

(x1 – y )2

(

)’

=

+

(x2 – y )2

+ … +

(xn – y )2

=

n

1

(

2( y – x1)

y

+

2( y – x2)

+ … +

2( y – xn)

)

=

2

(

n

x1 + x2 + … + xn

)

y

=

2

(

x

)

増減表

x

y

0

(s(y)2)’

s(y)2

y

s(y)2

x

μ

母平均

μを使った

標本分散

xを使った

標本分散

左図の議論から標本平均と母平均が

一致しない場合、標本平均の使った標本分散は

母平均を使った標本分散よりも小さくなる。

標本分散の平均 < 母分散 となる傾向がある

なので、標本分散をn/(n – 1)倍して調整

13 of 57

基本的な統計量(ちょっと深いところ)

標本分散の平均 < 母分散 となる傾向がある

なので、標本分散をn/(n – 1)倍して調整

1) 平均0, 分散1の正規分布から乱数を3つ生成

2) 標本分散を計算

3) 1)~2)を10000回繰り返す

4) 標本分散の平均を計算

5) おおむね3/2倍すると母分散に近くなることを確認

←標本分散の平均

母分散↑

14 of 57

基本的な統計量(ちょっと深いところ)

母平均を使って”標本分散”を計算すると?

母分散 = “標本分散”の平均

標本平均→

↓母平均

←”標本分散”の平均

母分散↑

1) 平均0, 分散1の正規分布から乱数を3つ生成

2) 標本平均ではなく母平均0を使って“標本分散”を計算

3) 1)~2)を10000回繰り返す

4) “標本分散”の平均を計算

5) 母分散に近くなることを確認

15 of 57

基本的な統計量

練習問題

1. 不偏推定量

標本平均、標本分散、不偏分散のうち、不偏推定量ではないものはどれか?

2. 母集団を特徴づける

標本分散と不偏分散のうち、母分散の推定値としてより適切なのはいずれか?

3. 実践

日本の男性全員の身長データがあるとする。このとき、データのばらつきの指標として、標本分散と不偏分散のいずれを計算するべきか?

16 of 57

偏差誤差

標本平均の分布

標準誤差=推定値の標準偏差

     推定値の精度の指標

     断りがない場合は標本平均の標準偏差

n – 1

1

(xi – x )2

Σ

i = 1

n

標準誤差 =

n

1

標準誤差

=

n

σ

x1

x2

X

n個サンプリング

17 of 57

偏差誤差

中心極限定理Central limit theorem

母集団が(一部の例外を除き)どんな分布でも、

その分布をもとに作った標本平均の分布は

サンプリング回数を増やすと正規分布に近づく

標本平均の分布=正規分布

n個サンプリング

を無限回

平均 μ

分散 σ2

平均 μ

分散 σ2/n

   = S.E2

μ

-1.96×S.E.

+1.96×S.E.

約95%

= 95%信頼区間

意味:母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる

18 of 57

偏差誤差

頻度

正規分布

μ

-SD

+SD

+2SD

+3SD

-2SD

-3SD

約68%

約95%

約99%

含まれる

データ量

正規分布だと嬉しい=性質がよく分かっている

19 of 57

偏差誤差

標準偏差や標準誤差はエラーバーとして

使われるが……

エラーバーはS.D.

エラーバーはS.E.

定義上、標準偏差≧標準誤差

標準誤差のほうが図がきれいだし、

誤差使おーっと……

表しているものが全然違うので

用途によって使い分けるべき

20 of 57

偏差誤差

標準偏差や標準誤差はエラーバーとして

使われるが……

エラーバーはS.D.

エラーバーはS.E.

標準偏差:得られたデータの分布を知りたい

標準誤差:標本平均の精度を知りたい

が基本

※ただし、そもそも論として標本の分布が正規分布ではない場合は

 標準偏差だけを描くのは不適切だし、ほとんど意味のない指標

21 of 57

偏差誤差

練習問題

1. 標本を特徴づける

標準偏差と標準誤差のうち、標本の平均値の推定精度を示すのは、どちらか?

2. 標準誤差

標準偏差と標準誤差のうち、サンプルサイズが小さいときより、大きいときのほうが小さい値を示すのは、どちらか?

3. 実践

龍谷大学の男性と女性の身長の様子を比較したい。このとき、身長の分布が正規分布に従うのだとしたら、標準偏差と標準誤差、のどちらでデータを示したらよいだろうか?

22 of 57

検定のこころ

2つのデータは違うもの

由来と考えていいの?

分布のあるデータ間に違いがあるか、

数値的に決着をつける手段が検定

23 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

標本A

標本B

xA

xB

平均値の差が大きい

⇒差がある

標本A

標本B

xA

xB

分散が小さい

⇒差がある

数値化してみる

24 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

検定統計量t0 =

(nA1) + (nB – 1)

(nA1) UA + (nB – 1) UB

+

nA

nB

1

1

xA

xB

各不偏分散

各サンプルサイズ

平均値の差が大きい

分散が小さい

(サンプルサイズが大きい)

t0は大きな値をとる

差があるということにする

合併不偏分散

平均値の差

不偏分散

サンプルサイズ

検定統計量t0 =

25 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

じゃあどれくらい大きなt0の値となれば差があるとできる?

ここで、差がない=平均が一致する時を考えてみる

1つの母集団からサンプリングするとみなせる

積分すると1

0

統計量tの分布

※サンプルサイズ、不偏分散の大きさから自動的にt分布は計算される(自分で計算する必要はないが)

統計量

t1

t2

t∞

nA, nB

サンプリング

26 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

じゃあどれくらい大きなt0の値となれば差があるとできる?

ここで、差がない=平均が一致する時を考えてみる

1つの母集団からサンプリングするとみなせる

積分すると1

統計量tの分布

0

手元の2標本

統計量t0

t0

t0が大きい⇒pが小さい

このpがある値以下になったら差があるとみなす

この積分を計算

=差のない分布から

 t0以上の値が出る確率

p

27 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

なぜp値基準??

積分すると1

統計量tの分布

0

この積分を計算

=差のない分布から

 t0以上の値が出る確率

t0

p

深読みすると……

・差がない分布からtを計算すると

 大きな値が出る確率は小さい

・確率が小さいことが起こった

 =前提(分布に差がない)が

  間違ってたからじゃない?

 =つまり分布に差がある

基準値は0.05とすることが多い

この基準値を有意水準、危険率、偽陽性率、

第一種の過誤の確率と言ったりする

背理法っぽい考え方

28 of 57

検定のこころ

帰無仮説

Null hypothesis

2つの標本は

差のない母集団由来

対立仮説

Alternative hypothesis

2つの標本は

差のある母集団由来

p値

有意水準α

危険率

偽陽性率

第一種の過誤

具体例:2標本の違いを測るStudentのt検定

棄却

保留

29 of 57

検定のこころ

第1種の過誤 Type I error

「差がない」にもかかわらず、「差がある」という結論を下すこと、およびその確率。「有意水準α」「危険率」「偽陽性率」とも呼ばれる。

第2種の過誤 Type II error

「差がある」にもかかわらず、「差がない」という結論を下すこと、およびその確率。「偽陰性率」とも呼ばれる。また、第2種の過誤の確率βに対して、1 – βを「検出力」と呼ぶ。

真の状態

差あり

差なし

検定結果

差あり

差なし

Type I error

Type II error

30 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

t検定をまとめると……

・サンプルサイズ、平均および不偏分散から

 計算される検定統計量t0を計算

t0がt分布においてp < 0.05となるような大きな値の場合、

 2つの分布には平均値の差があるとみなす(有意差あり)

別の検定になったところで基本概念は変わらない

・検定統計量の計算が変わる

 例:F検定なら検定統計量Fを計算する

p値計算に使う検定統計量の分布が変わる

 例:F検定ならF分布を使う

だけ

31 of 57

検定のこころ

検定統計量の従う分布からp値の計算

前提条件を母集団が満たしていれば、ある計算で産出された検定統計量はある分布に従う。標本についても同様に検定統計量を算出し、検定統計量の分布のどの位置にいるかでp値を計算する

t検定

分散分析

F検定

カイ二乗検定

検定

検定統計量

t

F

F

χ2

分布

t分布

F分布

F分布

χ2分布

32 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

エンドユーザー的に知るべきことは……

検定できる条件:

正規性:各標本が正規分布である

独立性:各標本がお互いに相関しないように

    サンプリングされている

等分散性:各標本の分散が等しい

正規性〇

正規性×

33 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

エンドユーザー的に知るべきことは……

検定できる条件:

処理A

個体1

個体2

個体3

処理B

個体4

個体5

個体6

処理A

個体1

個体1

個体2

処理B

個体1

個体1

個体2

独立性〇

独立性×

等分散性〇

等分散性×

34 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

エンドユーザー的に知るべきことは……

検定できる条件:

正規性の確認

シャピロ・ウィルク検定

コルモゴロフ・スミノルフ検定

等分散性の確認

F検定(正規分布前提)

バートレット検定(正規分布前提)

正直なところ、しないことが多いけど……

特に等分散性を仮定しない検定は後述参照

35 of 57

検定のこころ

具体例:2標本の違いを測るStudentのt検定

エンドユーザー的に知るべきことは……

検定できる条件:

正規分布じゃない

⇒ノンパラメトリック検定

 t検定に相当するのはMann-WhitneyのU検定)

独立じゃない

⇒対応のあるデータなら対応のあるt検定

分散が等しくない

Welchのt検定

 分散が等しくても常にこれ推奨!

36 of 57

検定のこころ

統計検定の大まかな流れ

比較する2標本を用意

各標本の分布の性質を理解

p値の閾値設定(大抵はα = 0.05)

検定統計量の算出

検定統計量の従う分布からp値の計算

大抵

コマンド一つ

37 of 57

検定のこころ

38 of 57

検定のこころ

1 ) 標本が前提条件に従わない場合

2 ) 3標本以上の違いを見たい場合

3 ) 量的データ vs 量的データの場合

どうすればいいんですか!?

より幅広い条件で使える統計を

探して実行するしかない……

t検定

分散分析・多重比較

線形回帰

一般化線形モデル

一般化線形混合モデル・ベイズ推定

ノンパラメトリック検定

解析したい有象無象のデータたち

39 of 57

検定のこころ

練習問題

1. 検定の選択

手元に独立にサンプリングされ、正規分布に従うものの、分散が等しくない2標本がある。この場合に、Studentのt検定、Welchのt検定のいずれを行うべきか?

2. p

有意水準を0.05に設定してt検定した結果、p = 0.12となった。このとき、2標本の平均値に違いはない、と主張できるか?

3. 実践

食事前および食事後の血糖値に違いがあるかを比較したい。このとき、対応のないt検定を行うのは適切か?

40 of 57

質問箱

あああああああああああ

41 of 57

Appendix�(もっと知りたい人向けへのメモ書き)

42 of 57

推定する

標本共分散=対応のある2対の標本の線形相関の指標

n

1

(xi – x )(yi – y )

Σ

i = 1

n

Cov(x, y) = sxy =

標本相関係数=標準化された標本共分散

       ピアソンの(積率)相関係数

r =

sx sy

sxy

標本xの標準偏差 × 標本yの標準偏差

2標本の標本共分散

=

※-1 ≤ r ≤ 1

 r2:決定係数

43 of 57

推定する

回帰 Regression

被説明変数(応答変数)に説明変数(従属変数)に基づく関係式(モデル)を当てはめる(fit)こと

モデル:y ~ β1x + β0

β0= y – x β1

β1

sxy

sx2

最小二乗法で求める

44 of 57

推定する

<証明>

y ~ β1x + β0

x1

y1

yn

xn

右図の の二乗和 R

上式を最小にするβ0とβ1を求める。

( yiβ1 xi – β0 )2

Σ

i = 1

n

β0とβ1で偏微分する。

∂R

∂β0

{2β0 – 2(yiβ1 xi )}

Σ

i = 1

n

0

両辺を1/(2n)で割り、 (1/n) Σxi = x、(1/n) Σyi = y を用いると

β0y + β1 x = 0

β0 = yβ1 x ……①

45 of 57

推定する

<証明>

∂R

∂β1

(2xi2β1 + 2xi β0 xi2xi yi )

Σ

i = 1

n

0

①式を代入して、両辺を1/(2n)で割る

β1

Σ

i = 1

n

1

n

xi2

Σ

i = 1

n

1

n

xi

+

y

x β1

Σ

i = 1

n

1

n

xi

Σ

i = 1

n

1

n

xi yi

0

xi2を {(xi x ) + x }2 xiyiを {(xi x ) + x }{(yi y ) + y }として展開

さらに、 (1/n) Σxi = x、(1/n) Σyi = y を用いて整理すると、

β1

Σ

i = 1

n

1

n

(xi – x )2

Σ

i = 1

n

1

n

(xi – x )(yi – y )

0

β1

sxy

sx2

46 of 57

推定する

主成分分析 Principal component analysis (PCA)

相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析。

図的にはn次元楕円体のなかで長軸を長い方から見つける作業。計算上は、分散共分散行列の固有値と固有ベクトルを求める作業である。

Σ =

sx12

sxn2

sx1 x2

sx2 x1

sxn x(n-1)

sx(n-1) xn

……

……

……

sxn x1

sx1 xn

分散

共分散

……

……

共分散

47 of 57

推定する

一般化線形モデル Generalized liner model

線形回帰や分散分析の拡張

使える分布を正規分布以外に拡張し、また適切な計算により線形回帰式に変換することで回帰を行う。

分布

回帰式

正規分布

Y ~ β0 + β1x1 + ……

線形回帰・分散分析

分布

回帰式

ガンマ分布、ポアソン分布……

y = f(Y) ~ β0 + β1x1 + ……

一般化線形モデル

※この時のf(x)をリンク関数と呼ぶ。

 リンク関数にはlog(y)、logit(y)、1/yなどがある

48 of 57

尤度と最尤法

最尤法 maximum likelihood

一般化線形モデルでは尤度を最大化するパラメータを探索する

線形回帰の最小二乗推定値と最尤推定値は一致する。

尤度 likelihood

仮定したモデルにおいて得られたデータが実現する確率の積(同時確率)

極めて小さい値になるので、パソコンの計算精度の制約から、

対数を取ることで和の形になる対数尤度として用いられることが多い

尤度が大きい=仮定した確率分布とデータセットの整合性が高い

得られたデータセット

分散σ2

平均μ

確率密度

……

積の形なので

対数を取れば

和の形になる

このバーの値を

掛け合わせたもの

尤度 L

Ex) モデル = 正規分布

49 of 57

尤度と最尤法

尤度関数 likelihood function

仮定したモデルのパラメータを変数とする尤度の関数

得られたデータセット

分散σ2

平均μ

確率密度

このバーの値を

掛け合わせたもの

尤度 L

Ex) モデル = 正規分布

どんなμやσを選んでもよい(μやσ の関数と見れる)

L(μ, σ) = p1 × p2 × p3 × p4 × p5 × p6 × p7 × p8 × …… × pi

p1

p2

p3

p4

p5

p6

p7

p8

pi

L(μ, σ)を最大化するμとσ を探す→最尤法

……

50 of 57

尤度と最尤法

尤度関数 likelihood function

仮定したモデルのパラメータを変数とする尤度の関数

μ

σ

L(μ, σ)

パラメータ空間

σ

^

μ

^

μ

^

σ

^

尤度関数を各パラメータで偏微分して求める

∂L

∂μ

= 0

∂L

∂σ

= 0

かつ

上記の連立方程式を満たすμとσがL(μ, σ)を最大化するパラメータの組み合わせ

最尤推定値

極大値

あるいはパラメータを動かし、尤度が高くなる方向を探す(コンピュータはそうしている)

51 of 57

ノンパラメトリック検定

標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定

具体例:Studentのt検定はパラメトリック

統計量

t1

t2

t∞

nA, nB

サンプリング

母集団は標本平均、合併不偏分散を仮定した正規分布(平均と不偏分散で一意に求まる分布)

標本平均

合併不偏分散

ノンパラでは

こう考えない

52 of 57

ノンパラメトリック検定

標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定

具体例:Mann-WhitneyのU検定はノンパラメトリック

統計量

U1

U2

U∞

nA, nB

サンプリング

母集団はパラメータで決まる分布

でなくてもよい

53 of 57

ノンパラメトリック検定

標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定

t検定と比較した使いどころ?利点?

・母集団が正規分布を仮定できないとき

・外れ値の影響を受けにくい

 ⇒パラメトリック検定では標本の値をパラメータに代表してもらうので、外れ値の影響が大きい

具体例:Mann-WhitneyのU検定はノンパラメトリック

欠点?

・母集団が正規分布のときの検出力はt検定のほうが高い

54 of 57

複数回検定を行うと……

帰無仮説

Null hypothesis

3つの標本はすべて

差のない母集団由来

μ1 = μ2 = μ3

対立仮説

Alternative hypothesis

3つの標本のいずれかは

差のある母集団由来

μ1 ≠ μ2

μ2 ≠ μ3

μ1 ≠ μ3

有意水準 α = 0.05

差がない(帰無仮説)のに

差がある(対立仮説)を採択する確率

複数検定した時の偽陽性率

= 1 - (真の陽性率)検定回数

= 1 – (1 – 0.05)3

= 0.142!!

この値が0.05を切るようにしたい……

 Bonferroniの補正

 α/検定回数 を新たな水準にする

55 of 57

Bonferroniの補正の証明

検定回数をn有意水準をαとする。

1 – (1 – α/n)n ≦ α を示す。

〈証明〉

f(x) = (1 – α/x)x とおく (x ≥ 1、0 < α < 1)

両辺対数を取って

log{f(x)} = x log(1 – α/x)

両辺をxで微分して

f’(x)/f(x) = log(1 – α/x) + x {log(1 – α/x)}’

= log(1 – α/x) + x {1/(1 – α/x)} α/x2

= log(1 – α/x) + α/(x – α)

f’(x) = (1 – α/x)x {log(1 – α/x) + α/(x – α)}

56 of 57

Bonferroniの補正の証明

〈証明のつづき〉

x ≥ 1、 0 < α < 1より

0 < α/x < 1

⇔ 1 – α/x > 0

⇔ (1 – α/x)x > 0

ここで

g(x) = log(1 – α/x) + α/(x – α)とおいて、

g’(x) = α/{x(x – α)} - α/(x – α)2

= α/(x – α) {1/x – 1/(x – α)} < 0

したがって、g(x)は単調減少

また、

limx→∞{log(1 – α/x)} = log 1 = 0

limx→∞{α/(x – α)} = 0

なので、g(x) > 0

57 of 57

Bonferroniの補正の証明

〈証明のつづき〉

ゆえに、

f’(x) = (1 – α/x)x g(x) > 0

したがって、f(x)は単調増加なので、

f(x) ≥ f(1) = (1 – α/1)1 = 1 - α

ゆえに

1 – f(x) ≤ 1 – f(1) = α

〈Q.E.D〉