仮説検定における第一種の過誤とか第二種の過誤がややこしかったのですが、図で考えてみたら理解が進みました。 備忘録として残しておきます。
主にこちらの記事からインスパイアされています。リンク先の方は、サンプルサイズが大きくなると分布のばらつきが小さくなって検出力が上がるよ的な話です。 bellcurve.jp
そもそも、統計的仮説検定とは
母数に関する仮説を検証する統計手法です。
帰無仮説 と、これに対して帰無仮説が成り立たない状態を表す対立仮説 を設定します。帰無仮説 が正しいという仮定の元で、ある統計量が従う確率分布が明らかであるとき、統計量の実現値が得られる確率を求めて事前に設定した有意水準と比較します。
実現値の確率が有意水準よりも低い場合(つまりサンプルから得られた統計量がレアケースとみなせる場合)は帰無仮説 を棄却し、対立仮説 を採択します。
実現値の確率が有意水準よりも高い場合(つまりサンプルから得られた統計量がそれほど珍しくないとみなせる場合)は帰無仮説 は棄却できません。
仮説検定はその手続き上、正しい判定が得られない可能性が一定の確率で存在します。過誤は2種類存在し、「第一種の過誤」「第二種の過誤」と呼ばれています。
第一種の過誤
まずは第一種の過誤のなんたるかについてです。
※以下、説明を簡素にするために分布の片側だけを考えます。
先に述べたように、検定の手続きではまず帰無仮説 が正しいと仮定した時に検定量が従う分布を考えます。有意水準α(下図の青い領域)を設定し、実現値の確率がこれより低い場合、すなわち実現値が限界値以上の値だった場合に帰無仮説 を棄却します。
ここで、もし本当に帰無仮説 が正しかった場合、限界値以上の実現値が観測される確率は有意水準αだけ存在しています。つまり、例えばα=0.05のとき、帰無仮説 が正しかったとしても5% の確率で限界値以上の実現値が得られ、帰無仮説は棄却されてしまいます。これが第一種の過誤です。 別の言い方をすれば、
ということです。
第二種の過誤
次に第二種の過誤について考えていきます。
帰無仮説 を仮定した際の分布において、実現値が得られる確率が有意水準以下であった場合、つまり限界値以上の実現値が得られた場合、検定量の分布は帰無仮説 を仮定した際の分布にしたがっていると考えられます。
ここで、実際には対立仮説 が正しかった場合、サンプルから得られた実現値についての以下の2つのケースを考えてみます。
その1: 限界値 < 実現値 の場合
実現値が限界値よりも大きい場合、帰無仮説 は棄却され、対立仮説 は正しく採択されます。
その2: 限界値 > 実現値 の場合
実現値が限界値よりも小さい場合、帰無仮説 は棄却できませんから、正しいはずの対立仮説 は採択されません。そして、限界値 > 実現値となる確率βは、下図のオレンジ色の領域に相当します。これが第二種の過誤です。
別の表現をすれば、
第二種の過誤は確率βで発生しうる
対立仮説 が正しいにも関わらず、これを採択できない確率がβだけ存在する
ということです。
検定力
第二種の過誤の確率βに対して、1-βを検定力と呼びます。 言い換えれば、「対立仮説 が正しいとき、正しくこれを採択できる確率が検定力1-βである」ということです。
おまけ:2値分類の評価指標との関係
さて、ここまでの流れでだいぶ頭が整理できたと思います。 実は似たような話を一度記事に書いています。
今回のケースでは、以下のような対応関係になります。
まとめ
以上の話を一枚絵で表すとこんな感じです。
おわりに
ややこしい話ですが、図で考えてみるとかなりスッキリわかりやすいですね。 勉強になりました。