研究メモ
メーリングリストを組み合わせることで仮想ユーザを合成する実験方式にあった懸案を除去した。元々のアイデアはハムはメーリングリストから送られてくるメッセージ集合、スパムはハニーポットで収集したものとしている。この場合、ハムにはメーリングリストに固有なヘッダ情報が必ず含まれ、スパムには含まれない。Bayes方式のスパムフィルタがこの点を察知した場合、われわれの実験はわれわれの仮説に有利な結果をもたらしてしまい、正当な評価とはいえない。
そこで、ハムのメッセージ集合から、メーリングリストに固有な情報を含むヘッダを除去して実験することとした。以下のヘッダ以外は無視することとした。
- From: From に moderator が指定するようなメーリングリストは実験データに用いていない。約30,000通のハムについて From の出現頻度分布を精査したが、From に出現するのは、発言をしている個人であることが確認できた。From は利用することとした。
- Mime-Version: スパム検出に役立つとは思えないが、実害はないので残してあるが、個々のメーリングリストごとにこのフィールドは変化しないので、無視した方がいいかもしれない
- Content-Type: 個々のメーリングリストごとにContent-Typeは変化しないような気もするので、このフィールドも無視した方がいいかもしれない
- Content-Transfer-Encoding: われわれの形態素解析器は中国語、ロシア語、韓国語に対応していないため、この情報がない場合には、システムが機能しない。スパムの一定の割合がこれらの言語で書かれており、Bayes方式のスパムフィルタはこれらのEncodingとスパムの関連性を容易に発見することが予想されるが、スパムのうち??割*1は英語、日本語であることから、この小さなチョンボは許していただきたい。
- Content-Length: スパム検出に役立つとは思えないが、実害はないので残した
- Status: スパム検出に役立つとは思えないが、実害はないので残した
以下が無視したヘッダの代表である(佐藤くんまち)。