唯物是真 @Scaled_Wurm

プログラミング(主にPython2.7)とか機械学習とか

bag of wordsのbagがmultisetという意味だったことを今更知った

自然言語処理や情報検索などでよく使われるbag of wordsモデルというのがある
これはテキストデータを単語(形態素?)の位置は無視して単語ごとの出現回数だけで表す方法で、このモデルで表したデータを適当に機械学習の分類器にかけるだけでそれなりによい結果が得られたりする

画像でもbag of visual wordsという似たようなものが使われることがあるaidiary.hatenablog.com

あまり名前の意味を考えたことがなかったけど、bagは多重集合(multiset)の別名らしいというのをTwitterで見かけた(Wikipediaにも書いてある)

多重集合は同じ要素を複数個入れられる集合なので、名前はモデルをそのまま表していたらしい

どうでもいいけど、ということは単語があったかどうかの二値の特徴量の場合は、厳密にはmultisetじゃなくてsetになっちゃうからbag of wordsではないのかな?