唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入"(214回NL研)

概要

ネット上に登場するような崩れた表記のテキストの形態素解析をする。

正規の表現(崩れてない表現)と崩れた表現のペアのデータを用意して、崩れ方のパターンと信頼度を学習し、形態素解析時に利用する

手法

正規の表現と崩れた表現のペアのデータを集める。

このペアに対して文字列のアラインメントを取って正規の表現の文字から崩れた表現への変化のパターンを抽出する(確率付き)

更に線形SVMを使って展開候補の信頼度を学習する(ペアのデータを抽出したパターンを使って正例と負例を自動でラベリング
素性はアラインメントを取って学習した変化の確率や文字ngramの確率など

上で求めた変化の確率や信頼度に加えて、品詞連接コスト、単語正規コスト、単語のngramのコストを素性として、最終的な形態素解析のモデルを学習
MERT(誤り率最小化学習)を用いてPowell法でパラメータ最適化
正規の文の解析結果との編集距離を使って損失関数を計算

感想

崩れた表現と正規の表現のペアを用意する必要はあるものの、様々な種類の変化に対応していて便利そう
崩れた表現の形態素解析の研究は最近多いので、ひらがな化やカタカナ化などの他のよく出てくる種類の表現も含めて多くに対応したツールを誰かが公開してくれるとうれしいなぁ