ACL2011の論文.
概要
単語の難しさを年齢(学年?)ごとに分けるタスク。
含まれる年齢の範囲の異なるコーパス(1, 1-2, 1-3,..., adult)から単語頻度-文書行列を作成。
adult以外のそれぞれについてLSAをかけた結果とadultの結果の間で、同じ単語のcos類似度を計算する。
LSAの結果は直接的には比較できないので、同一の文書どうしの二乗誤差が最小になるようにProcrustes Alignmentによって回転後にcos類似度を求める。
類似度が高いほどadultが表している意味に近いと考えられ、その学年でよく意味が理解されていると考えられる。
感想
別々のデータに対して、LSAによって次元削減した結果を比較して良いのかよくわからなかった。
回転すればよいというのは本当なのでしょうか?
回転周りの話と手法が理解できませんでした。