Hatena::Groupgeneration1986

ギーク目指してみる?

2009-01-27

ちょいメモ

| 10:56 | ちょいメモ - ギーク目指してみる? を含むブックマーク

逆文書頻度

負の数にしないのは、逆数をとった方が df(t) が小さいほど大きな値にできるから。*1でも、それだと不当に差が大きくなりすぎてしまうので、対数を取る。で、これだと N/df(t) = 1 のときに0になってしまうので、全部に1を足して、すべての重みを(差の大きさを変えずに)正数にする。

*1:これは絶対値の問題かなー