唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

論文感想: "Semi-Supervised SimHash for Efficient Document Similarity Search"

ACL2011の論文.

概要

類似文書検索のタスク。
既存の半教師ありのハッシュによる手法は、PCAやSVDライクな手法を用いているため、計算量が大きくまたビットを増やすほど曖昧なビットが増えていくという問題がある、この論文の手法は準Newton法を使っており高速かつビットを増やして大丈夫。

感想

目的関数の意味はある程度わかったけど、それ以外が全然わからなかったorz
LDA(Latent Discriminant Analysis)とかMDA(Multiple Discriminant Analysis)の話が出てきたのが個人的に懐かしかった。