怖くない!ざっくり学ぶ統計
野村康之(21.10.29.)
統計がわかると嬉しいこと!
・平均、最大値、最小値にとらわれないデータの解釈
500
0
500
1000
0
年収
会社B
会社A
人数
・ばらつきがあるデータの違いを量的に説明
2つのデータは違うもの
由来と考えていいの?
セミナーの目標
・母平均、母分散、標本平均、標本分散、不偏分散の
違いを説明できる
・エラーバーをつけるときに、標準偏差か標準誤差か、
選択をできる
・適切な検定を選ぶことができる
セミナーのお品書き
・私たちは分布を知りたい
・基本的な統計量
・偏差か誤差か
・検定のこころ
私たちは分布(母集団)を知りたい
中葉胚性上皮腫瘍
死亡までの中央値は癌発見後8ヶ月
私たちは分布(母集団)を知りたい
『中央値は神のお告げではない』
“The Median Isn't the Message”
by Stephen Jay Gould
データには分布がある
大きさ
頻度
この形質の個体のみ?
大きさ
頻度
いろんな形質の個体が
いろんな頻度で存在
population thinking
私たちは分布(母集団)を知りたい
頻度
母集団(真の分布)
全個体の形質の頻度分布
知るのは無理!
標本抽出
標本、サンプル
一部の個体の形質の頻度分布
知ることができる
推定
母平均 μ
母分散 σ2
標本平均 x
標本分散 s2
推定
統計量
基本的な統計量
標本=手もとにあるn個の観測値
nは標本の大きさ、サンプルサイズと呼ばれる
x1, x2, … xn
標本平均=分布の「中央」の値
母平均の推定値
E = x =
標本の大きさ
観測値の和
n
xi
=
1
Σ
i = 1
n
標本分散=分布のばらつきの指標
s2 =
標本の大きさ
偏差の平方和
=
(xi – x )2
n
1
Σ
i = 1
n
※偏差: xi – x
基本的な統計量
標本平均の平均 = 母平均
このような母集団の統計量と一致する標本から得られた統計量を
不偏推定量Unbiased estimatorという。
1) 平均0, 分散1の正規分布から乱数を3つ生成
2) 標本平均を計算
3) 1)~2)を10000回繰り返す
4) 標本平均の平均を計算
5) 母平均に近くなることを確認
標本平均の平均→
母平均↑
基本的な統計量
不偏分散=分布のばらつきの指標
母分散のより良い推定値
n – 1
1
(xi – x )2
Σ
i = 1
n
U = σ2 =
標準偏差=分布のばらつきの指標
母標準偏差のより良い推定値
平均との足し引きで分布の感じがつかめる
n – 1
1
(xi – x )2
Σ
i = 1
n
σ = S.D. =
基本的な統計量(ちょっと深いところ)
標本分散が小さくなる簡単な説明:
標本分散の定義から、標本平均を変数yにした関数を微分して、
(s(y)2)’ =
(xi – y)2
n
1
Σ
i = 1
n
(
)’
n
1
(x1 – y )2
(
)’
=
+
(x2 – y )2
+ … +
(xn – y )2
=
n
1
(
2( y – x1)
y
+
2( y – x2)
+ … +
2( y – xn)
)
=
2
(
–
n
x1 + x2 + … + xn
)
y
=
2
(
–
x
)
増減表
x
y
0
(s(y)2)’
s(y)2
y
s(y)2
x
μ
母平均
μを使った
標本分散
xを使った
標本分散
左図の議論から標本平均と母平均が
一致しない場合、標本平均の使った標本分散は
母平均を使った標本分散よりも小さくなる。
標本分散の平均 < 母分散 となる傾向がある
なので、標本分散をn/(n – 1)倍して調整
基本的な統計量(ちょっと深いところ)
標本分散の平均 < 母分散 となる傾向がある
なので、標本分散をn/(n – 1)倍して調整
1) 平均0, 分散1の正規分布から乱数を3つ生成
2) 標本分散を計算
3) 1)~2)を10000回繰り返す
4) 標本分散の平均を計算
5) おおむね3/2倍すると母分散に近くなることを確認
←標本分散の平均
母分散↑
基本的な統計量(ちょっと深いところ)
母平均を使って”標本分散”を計算すると?
母分散 = “標本分散”の平均
標本平均→
↓母平均
←”標本分散”の平均
母分散↑
1) 平均0, 分散1の正規分布から乱数を3つ生成
2) 標本平均ではなく母平均0を使って“標本分散”を計算
3) 1)~2)を10000回繰り返す
4) “標本分散”の平均を計算
5) 母分散に近くなることを確認
基本的な統計量
練習問題
1. 不偏推定量
標本平均、標本分散、不偏分散のうち、不偏推定量ではないものはどれか?
2. 母集団を特徴づける
標本分散と不偏分散のうち、母分散の推定値としてより適切なのはいずれか?
3. 実践
日本の男性全員の身長データがあるとする。このとき、データのばらつきの指標として、標本分散と不偏分散のいずれを計算するべきか?
偏差か誤差か
標本平均の分布
標準誤差=推定値の標準偏差
推定値の精度の指標
断りがない場合は標本平均の標準偏差
n – 1
1
(xi – x )2
Σ
i = 1
n
標準誤差 =
n
1
標準誤差
=
n
σ
x1
x2
X∞
…
n個サンプリング
偏差か誤差か
中心極限定理Central limit theorem
母集団が(一部の例外を除き)どんな分布でも、
その分布をもとに作った標本平均の分布は
サンプリング回数を増やすと正規分布に近づく
標本平均の分布=正規分布
n個サンプリング
を無限回
平均 μ
分散 σ2
平均 μ
分散 σ2/n
= S.E2
μ
-1.96×S.E.
+1.96×S.E.
約95%
= 95%信頼区間
意味:母集団から標本を取ってきて、その平均から95%信頼区間を求める、という作業を100回やったときに、95回はその区間の中に母平均が含まれる
偏差か誤差か
頻度
正規分布
μ
-SD
+SD
+2SD
+3SD
-2SD
-3SD
約68%
約95%
約99%
含まれる
データ量
正規分布だと嬉しい=性質がよく分かっている
偏差か誤差か
標準偏差や標準誤差はエラーバーとして
使われるが……
エラーバーはS.D.
エラーバーはS.E.
定義上、標準偏差≧標準誤差
標準誤差のほうが図がきれいだし、
誤差使おーっと……
表しているものが全然違うので
用途によって使い分けるべき
偏差か誤差か
標準偏差や標準誤差はエラーバーとして
使われるが……
エラーバーはS.D.
エラーバーはS.E.
標準偏差:得られたデータの分布を知りたい
標準誤差:標本平均の精度を知りたい
が基本
※ただし、そもそも論として標本の分布が正規分布ではない場合は
標準偏差だけを描くのは不適切だし、ほとんど意味のない指標
偏差か誤差か
練習問題
1. 標本を特徴づける
標準偏差と標準誤差のうち、標本の平均値の推定精度を示すのは、どちらか?
2. 標準誤差
標準偏差と標準誤差のうち、サンプルサイズが小さいときより、大きいときのほうが小さい値を示すのは、どちらか?
3. 実践
龍谷大学の男性と女性の身長の様子を比較したい。このとき、身長の分布が正規分布に従うのだとしたら、標準偏差と標準誤差、のどちらでデータを示したらよいだろうか?
検定のこころ
2つのデータは違うもの
由来と考えていいの?
分布のあるデータ間に違いがあるか、
数値的に決着をつける手段が検定
検定のこころ
具体例:2標本の違いを測るStudentのt検定
標本A
標本B
xA
xB
平均値の差が大きい
⇒差がある
標本A
標本B
xA
xB
分散が小さい
⇒差がある
数値化してみる
検定のこころ
具体例:2標本の違いを測るStudentのt検定
検定統計量t0 =
(nA – 1) + (nB – 1)
(nA – 1) UA + (nB – 1) UB
+
nA
nB
1
1
xA
xB
–
各不偏分散
各サンプルサイズ
平均値の差が大きい
分散が小さい
(サンプルサイズが大きい)
⇒t0は大きな値をとる
=差があるということにする
合併不偏分散
平均値の差
不偏分散
サンプルサイズ
検定統計量t0 =
検定のこころ
具体例:2標本の違いを測るStudentのt検定
じゃあどれくらい大きなt0の値となれば差があるとできる?
ここで、差がない=平均が一致する時を考えてみる
1つの母集団からサンプリングするとみなせる
積分すると1
0
統計量tの分布
※サンプルサイズ、不偏分散の大きさから自動的にt分布は計算される(自分で計算する必要はないが)
統計量
…
t1
t2
t∞
nA, nB個
サンプリング
検定のこころ
具体例:2標本の違いを測るStudentのt検定
じゃあどれくらい大きなt0の値となれば差があるとできる?
ここで、差がない=平均が一致する時を考えてみる
1つの母集団からサンプリングするとみなせる
積分すると1
統計量tの分布
0
手元の2標本
統計量t0
t0
t0が大きい⇒pが小さい
このpがある値以下になったら差があるとみなす
この積分を計算
=差のない分布から
t0以上の値が出る確率
p値
検定のこころ
具体例:2標本の違いを測るStudentのt検定
なぜp値基準??
積分すると1
統計量tの分布
0
この積分を計算
=差のない分布から
t0以上の値が出る確率
t0
p値
深読みすると……
・差がない分布からtを計算すると
大きな値が出る確率は小さい
・確率が小さいことが起こった
=前提(分布に差がない)が
間違ってたからじゃない?
=つまり分布に差がある
基準値は0.05とすることが多い
この基準値を有意水準、危険率、偽陽性率、
第一種の過誤の確率と言ったりする
背理法っぽい考え方
検定のこころ
帰無仮説
Null hypothesis
2つの標本は
差のない母集団由来
対立仮説
Alternative hypothesis
2つの標本は
差のある母集団由来
p値
有意水準α
危険率
偽陽性率
第一種の過誤
具体例:2標本の違いを測るStudentのt検定
棄却
保留
検定のこころ
第1種の過誤 Type I error
「差がない」にもかかわらず、「差がある」という結論を下すこと、およびその確率。「有意水準α」「危険率」「偽陽性率」とも呼ばれる。
第2種の過誤 Type II error
「差がある」にもかかわらず、「差がない」という結論を下すこと、およびその確率。「偽陰性率」とも呼ばれる。また、第2種の過誤の確率βに対して、1 – βを「検出力」と呼ぶ。
真の状態
差あり
差なし
検定結果
差あり
差なし
真
真
Type I error
Type II error
検定のこころ
具体例:2標本の違いを測るStudentのt検定
t検定をまとめると……
・サンプルサイズ、平均および不偏分散から
計算される検定統計量t0を計算
・t0がt分布においてp < 0.05となるような大きな値の場合、
2つの分布には平均値の差があるとみなす(有意差あり)
別の検定になったところで基本概念は変わらない
・検定統計量の計算が変わる
例:F検定なら検定統計量Fを計算する
・p値計算に使う検定統計量の分布が変わる
例:F検定ならF分布を使う
だけ
検定のこころ
検定統計量の従う分布からp値の計算:
前提条件を母集団が満たしていれば、ある計算で産出された検定統計量はある分布に従う。標本についても同様に検定統計量を算出し、検定統計量の分布のどの位置にいるかでp値を計算する。
t検定
分散分析
F検定
カイ二乗検定
検定
検定統計量
t
F
F
χ2
分布
t分布
F分布
F分布
χ2分布
検定のこころ
具体例:2標本の違いを測るStudentのt検定
エンドユーザー的に知るべきことは……
検定できる条件:
正規性:各標本が正規分布である
独立性:各標本がお互いに相関しないように
サンプリングされている
等分散性:各標本の分散が等しい
正規性〇
正規性×
検定のこころ
具体例:2標本の違いを測るStudentのt検定
エンドユーザー的に知るべきことは……
検定できる条件:
処理A
個体1
個体2
個体3
処理B
個体4
個体5
個体6
処理A
個体1
個体1
個体2
処理B
個体1
個体1
個体2
独立性〇
独立性×
等分散性〇
等分散性×
検定のこころ
具体例:2標本の違いを測るStudentのt検定
エンドユーザー的に知るべきことは……
検定できる条件:
正規性の確認
シャピロ・ウィルク検定
コルモゴロフ・スミノルフ検定
等分散性の確認
F検定(正規分布前提)
バートレット検定(正規分布前提)
正直なところ、しないことが多いけど……
特に等分散性を仮定しない検定は後述参照
検定のこころ
具体例:2標本の違いを測るStudentのt検定
エンドユーザー的に知るべきことは……
検定できる条件:
正規分布じゃない
⇒ノンパラメトリック検定
(t検定に相当するのはMann-WhitneyのU検定)
独立じゃない
⇒対応のあるデータなら対応のあるt検定
分散が等しくない
⇒Welchのt検定
分散が等しくても常にこれ推奨!
検定のこころ
統計検定の大まかな流れ
比較する2標本を用意
各標本の分布の性質を理解
p値の閾値設定(大抵はα = 0.05)
検定統計量の算出
検定統計量の従う分布からp値の計算
大抵
コマンド一つ
検定のこころ
検定のこころ
1 ) 標本が前提条件に従わない場合
2 ) 3標本以上の違いを見たい場合
3 ) 量的データ vs 量的データの場合
どうすればいいんですか!?
より幅広い条件で使える統計を
探して実行するしかない……
t検定
分散分析・多重比較
線形回帰
一般化線形モデル
一般化線形混合モデル・ベイズ推定
ノンパラメトリック検定
解析したい有象無象のデータたち
検定のこころ
練習問題
1. 検定の選択
手元に独立にサンプリングされ、正規分布に従うものの、分散が等しくない2標本がある。この場合に、Studentのt検定、Welchのt検定のいずれを行うべきか?
2. p値
有意水準を0.05に設定してt検定した結果、p = 0.12となった。このとき、2標本の平均値に違いはない、と主張できるか?
3. 実践
食事前および食事後の血糖値に違いがあるかを比較したい。このとき、対応のないt検定を行うのは適切か?
質問箱
あああああああああああ
Appendix�(もっと知りたい人向けへのメモ書き)
推定する
標本共分散=対応のある2対の標本の線形相関の指標
n
1
(xi – x )(yi – y )
Σ
i = 1
n
Cov(x, y) = sxy =
標本相関係数=標準化された標本共分散
ピアソンの(積率)相関係数
r =
sx sy
sxy
標本xの標準偏差 × 標本yの標準偏差
2標本の標本共分散
=
※-1 ≤ r ≤ 1
r2:決定係数
推定する
回帰 Regression
被説明変数(応答変数)に説明変数(従属変数)に基づく関係式(モデル)を当てはめる(fit)こと
モデル:y ~ β1x + β0
β0= y – x β1
β1=
sxy
sx2
最小二乗法で求める
推定する
<証明>
y ~ β1x + β0
x1
y1
yn
xn
右図の の二乗和 R
=
上式を最小にするβ0とβ1を求める。
( yi – β1 xi – β0 )2
Σ
i = 1
n
β0とβ1で偏微分する。
∂R
∂β0
=
{2β0 – 2(yi – β1 xi )}
Σ
i = 1
n
= 0
両辺を1/(2n)で割り、 (1/n) Σxi = x、(1/n) Σyi = y を用いると
β0 – y + β1 x = 0
β0 = y – β1 x ……①
推定する
<証明>
∂R
∂β1
=
(2xi2β1 + 2xi β0 xi – 2xi yi )
Σ
i = 1
n
= 0
①式を代入して、両辺を1/(2n)で割る
β1
Σ
i = 1
n
1
n
xi2
Σ
i = 1
n
1
n
xi
+
y
–
x β1
Σ
i = 1
n
1
n
xi
–
Σ
i = 1
n
1
n
xi yi
= 0
xi2を {(xi – x ) + x }2、 xiyiを {(xi – x ) + x }{(yi – y ) + y }として展開
さらに、 (1/n) Σxi = x、(1/n) Σyi = y を用いて整理すると、
β1
Σ
i = 1
n
1
n
(xi – x )2
–
Σ
i = 1
n
1
n
(xi – x )(yi – y )
= 0
β1=
sxy
sx2
推定する
主成分分析 Principal component analysis (PCA)
相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析。
図的にはn次元楕円体のなかで長軸を長い方から見つける作業。計算上は、分散共分散行列の固有値と固有ベクトルを求める作業である。
Σ =
sx12
sxn2
sx1 x2
sx2 x1
sxn x(n-1)
sx(n-1) xn
……
……
……
sxn x1
sx1 xn
分散
共分散
……
……
共分散
推定する
一般化線形モデル Generalized liner model
線形回帰や分散分析の拡張
使える分布を正規分布以外に拡張し、また適切な計算により線形回帰式に変換することで回帰を行う。
分布
回帰式
正規分布
Y ~ β0 + β1x1 + ……
線形回帰・分散分析
分布
回帰式
ガンマ分布、ポアソン分布……
y = f(Y) ~ β0 + β1x1 + ……
一般化線形モデル
※この時のf(x)をリンク関数と呼ぶ。
リンク関数にはlog(y)、logit(y)、1/yなどがある
尤度と最尤法
最尤法 maximum likelihood
一般化線形モデルでは尤度を最大化するパラメータを探索する
線形回帰の最小二乗推定値と最尤推定値は一致する。
尤度 likelihood
仮定したモデルにおいて得られたデータが実現する確率の積(同時確率)
極めて小さい値になるので、パソコンの計算精度の制約から、
対数を取ることで和の形になる対数尤度として用いられることが多い
尤度が大きい=仮定した確率分布とデータセットの整合性が高い
得られたデータセット
分散σ2
平均μ
確率密度
……
積の形なので
対数を取れば
和の形になる
このバーの値を
掛け合わせたもの
=尤度 L
Ex) モデル = 正規分布
尤度と最尤法
尤度関数 likelihood function
仮定したモデルのパラメータを変数とする尤度の関数
得られたデータセット
分散σ2
平均μ
確率密度
このバーの値を
掛け合わせたもの
=尤度 L
Ex) モデル = 正規分布
どんなμやσを選んでもよい(μやσ の関数と見れる)
L(μ, σ) = p1 × p2 × p3 × p4 × p5 × p6 × p7 × p8 × …… × pi
p1
p2
p3
p4
p5
p6
p7
p8
pi
L(μ, σ)を最大化するμとσ を探す→最尤法
……
尤度と最尤法
尤度関数 likelihood function
仮定したモデルのパラメータを変数とする尤度の関数
μ
σ
L(μ, σ)
パラメータ空間
σ
^
μ
^
μ
^
σ
^
尤度関数を各パラメータで偏微分して求める
∂L
∂μ
= 0
∂L
∂σ
= 0
かつ
上記の連立方程式を満たすμとσがL(μ, σ)を最大化するパラメータの組み合わせ
=最尤推定値
極大値
あるいはパラメータを動かし、尤度が高くなる方向を探す(コンピュータはそうしている)
ノンパラメトリック検定
標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定
具体例:Studentのt検定はパラメトリック
統計量
…
t1
t2
t∞
nA, nB個
サンプリング
母集団は標本平均、合併不偏分散を仮定した正規分布(平均と不偏分散で一意に求まる分布)
標本平均
合併不偏分散
ノンパラでは
こう考えない
ノンパラメトリック検定
標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定
具体例:Mann-WhitneyのU検定はノンパラメトリック
統計量
…
U1
U2
U∞
nA, nB個
サンプリング
母集団はパラメータで決まる分布
でなくてもよい
ノンパラメトリック検定
標本の由来にパラメータ(母集団を特徴づける量、平均、分散など)を使って定義される母集団を仮定しない検定
t検定と比較した使いどころ?利点?
・母集団が正規分布を仮定できないとき
・外れ値の影響を受けにくい
⇒パラメトリック検定では標本の値をパラメータに代表してもらうので、外れ値の影響が大きい
具体例:Mann-WhitneyのU検定はノンパラメトリック
欠点?
・母集団が正規分布のときの検出力はt検定のほうが高い
複数回検定を行うと……
帰無仮説
Null hypothesis
3つの標本はすべて
差のない母集団由来
μ1 = μ2 = μ3
対立仮説
Alternative hypothesis
3つの標本のいずれかは
差のある母集団由来
μ1 ≠ μ2
μ2 ≠ μ3
μ1 ≠ μ3
有意水準 α = 0.05
差がない(帰無仮説)のに
差がある(対立仮説)を採択する確率
複数検定した時の偽陽性率
= 1 - (真の陽性率)検定回数
= 1 – (1 – 0.05)3
= 0.142!!
この値が0.05を切るようにしたい……
Bonferroniの補正
α/検定回数 を新たな水準にする
Bonferroniの補正の証明
検定回数をn、有意水準をαとする。
1 – (1 – α/n)n ≦ α を示す。
〈証明〉
f(x) = (1 – α/x)x とおく (x ≥ 1、0 < α < 1)
両辺対数を取って
log{f(x)} = x log(1 – α/x)
両辺をxで微分して
f’(x)/f(x) = log(1 – α/x) + x {log(1 – α/x)}’
= log(1 – α/x) + x {1/(1 – α/x)} α/x2
= log(1 – α/x) + α/(x – α)
f’(x) = (1 – α/x)x {log(1 – α/x) + α/(x – α)}
Bonferroniの補正の証明
〈証明のつづき〉
x ≥ 1、 0 < α < 1より
0 < α/x < 1
⇔ 1 – α/x > 0
⇔ (1 – α/x)x > 0
ここで
g(x) = log(1 – α/x) + α/(x – α)とおいて、
g’(x) = α/{x(x – α)} - α/(x – α)2
= α/(x – α) {1/x – 1/(x – α)} < 0
したがって、g(x)は単調減少
また、
limx→∞{log(1 – α/x)} = log 1 = 0
limx→∞{α/(x – α)} = 0
なので、g(x) > 0
Bonferroniの補正の証明
〈証明のつづき〉
ゆえに、
f’(x) = (1 – α/x)x g(x) > 0
したがって、f(x)は単調増加なので、
f(x) ≥ f(1) = (1 – α/1)1 = 1 - α
ゆえに
1 – f(x) ≤ 1 – f(1) = α
〈Q.E.D〉