論文感想: "Word Maturity: Computational Modeling of Word Knowledge"

Word Maturity: Computational Modeling of Word Knowledge

ACL2011の論文．

概要

単語の難しさを年齢(学年？)ごとに分けるタスク。
含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。
adult以外のそれぞれについてLSAをかけた結果とadultの結果の間で、同じ単語のcos類似度を計算する。
LSAの結果は直接的には比較できないので、同一の文書どうしの二乗誤差が最小になるようにProcrustes Alignmentによって回転後にcos類似度を求める。
類似度が高いほどadultが表している意味に近いと考えられ、その学年でよく意味が理解されていると考えられる。