下の記事が話題になっていたので読んで、「そういえば自分は統計的仮説検定がよくわかってないなぁ」と思ったのでなんとなく書いた
自分の理解
とりあえず自分の曖昧な理解をつらつらと書いておく
間違ってたら指摘いただけると嬉しい
統計的仮説検定は(帰無)仮説がある有意水準のもとで間違っている(棄却できる、p値が有意水準以下になる)かどうかを統計的に判定する手法
正確には求めたい(対立)仮説の反対を帰無仮説とする
まず有意水準とかp値の意味が難しい
有意水準は真である帰無仮説を誤って棄却する確率で、p値は得られたデータ以上に極端なデータが帰無仮説において得られる確率らしい
有意水準が表しているのが検定が間違える確率じゃないっぽいのもわかりづらい
いわゆる特異度を1から引いた的なものって理解でいいのかな?
FPが「真の帰無仮説を誤って棄却」、TNが「真の帰無仮説を正しく棄却しない」をそれぞれ表すとしたとき有意水準は
$$SignificanceLevel= \frac{FP}{FP + TN}$$
有意水準は棄却と判定されたときにその棄却が間違っている確率ってわけでもない
p値の大きさが違いの大きさを表しているわけではないのもわかりづらい
データと帰無仮説の違いが大きくてもp値は下がるけど、データ数が多ければ少しの違いでもp値は小さくなる
p値の比較はあまり意味が無いとどこかで見たような気がするけど、でも検定で使われる統計量(カイ二乗)とかを使って特徴選択したり、共起(?)とかをはかるのに比較してるのもみかけるような……
すっごく大雑把な機械学習とかのアナロジーだと、統計的検定は検定ごとの条件のもとで帰無仮説を負例とみなしたとき特異度が \( (1 - SignificanceLevel) \) になることが理論的に保証された二値分類器ってことでいいんですかね?
あと帰無仮説が「平均が等しい」とか「係数が0」とか色々ありますけど、素朴な発想だと「そりゃあぴったりおなじになるわけないんじゃないの?」と思ってしまうんですがそういう話でもないのかなぁ……
検定の注意点
統計的仮説検定の使い方には気をつけたほうがいい、って記事はよく見かける
とりあえず自分のはてなブックマークをあさってみた
例えば以下の記事では「二値の結果しか出さない検定を使うよりも効果量(効果の大きさを表すらしい)の区間推定をしたほうがよい」とか色々書いてある
- TAKENAKA's Web Page: 有意性検定の無意味さ
- サヨナラ検定、グッバイ統計的有意性/統計を使うつもりなら必読の論文はこれ 読書猿Classic: between / beyond readers
多重検定をすると誤って棄却する確率が高くなるので気をつけないといけないという話
検定力とかの話
片側検定をどういう時に使えるか
まとめ
統計的仮設検定の基本がよくわからないですし、調べていくと検定力(検出力?)とか効果量とか新しい単語が出てきて難しいです……