2/21の日記に書いた閾値の設定方法は佐藤くんがずいぶん試行錯誤をしてくれたものの、うまくいかなかった。彼の努力の副産物として、HTMLメールに対する検出能力がかなり向上したようです。
手作業で閾値を調整すればわりとうまくいくということなので(佐藤くんご苦労さまでした)、仕切り直し。ハムメッセージ集合(H)とスパム集合のそれぞれに含まれるメッセージについて評価値を計算し、それぞれの集合ごとに平均値MH、MSと標準偏差σH、σSを求め、閾値をMH + (MS-MH)/(σH + σS)σHと定めてみる。