概要
自然言語処理における有意性検定に関する調査.
感想
いくつかのワークショップやshared taskでは各チームの出力が公開されていて,それらに対して検定を行なって評価指標とp-valueの関係についてグラフを書いてあるのは「へー」って感じだった.
後半の人工的な出力の生成の話はよく意味が理解できなかった.
「テストデータのサイズが大きくなると有意性を出すのに必要な尺度の値の差が小さくなる」って話と「テストデータのドメインが異なるとうまくいかない」って話は直感的には当然な気がして,あまりおもしろくなかった.
内容的には特に得るものはなかったけど,もっと細かく読めば違うのかなぁ…….