研究メモ

2/21の日記に書いた閾値の設定方法は佐藤くんがずいぶん試行錯誤をしてくれたものの、うまくいかなかった。彼の努力の副産物として、HTMLメールに対する検出能力がかなり向上したようです。

手作業で閾値を調整すればわりとうまくいくということなので(佐藤くんご苦労さまでした)、仕切り直し。ハムメッセージ集合(H)とスパム集合のそれぞれに含まれるメッセージについて評価値を計算し、それぞれの集合ごとに平均値MHMS標準偏差σHσSを求め、閾値MH + (MS-MH)/(σH + σS)σHと定めてみる。