CEAS 2004

Conference on Email and Anti-Spamのなかから、面白そうな論文を学生さんにピックアップしてもらったので、アブストラクトを眺めながらまとめてみました。

I. Rigoutsos & T. Huynh: "Chung-Kwei: A pattern-discovery-based system for the automatic identification of unsolicited e-mail messages"

IBM Researchの SpamGuru システムの一部に採用されている Chung-Kwei というスパムフィルターの内部についての解説。著者らは生命科学データマイニングの手法であるTeiresiasパターン発見アルゴリズムを基本にしているらしい。まずTeiresiasパターン発見アルゴリズムSPAMメッセージの集合(SPAM集合)に適用し、SPAM集合に繰り返し発生するパターンを発見する。つぎに、受信メッセージに対してパターンを適用しSPAMを発見する。

フィルタの処理性能は214メッセージ/秒(2.2GHz Intel-Pentium)とかなり遅いが、false negative = 3.44%, false positive =0.066% というのはよい。

T. Mayer and B. Whateley, "SpamBayes: Effective open-source, Bayesian based, email classification system"

SpamBayesフィルタで採用されている、「不明」メッセージの仕掛けについての解説。SpamBayesは、受信メッセージをHam, Spam, 不明の三種に分類することで性能を改善しているらしい。要するに三値論理を導入したらしい。なるほど。

関連研究の紹介では、Grahamによる最初の提案に続き、その問題点、Robinsonによる改善がわかりやすく解説されている。なかなかよいレビュー。

E. Michelakis, I. Androutsopoulos, G. Paliouras, G. Sakkis, and P. Stamatopoulow, "Filtron: A learning-based anti-Spam filter"

Wekaというオープンソース機械学習基盤を利用して実装された学習型のスパムフィルタの報告。詳細はアブストラクトやイントロからは不明。さまざまな学習法を比較調査したということだろうか???

Naive Bayes, Flexible Bayes, LogitBoost, SVM (Smart Vector Machine) について vitro 評価と vivo 評価を行っている。評価には、公開コーパスを用いている。こういうコーパスが存在するんですね。ギリシア語かもしれないけど、うちのシステムで大丈夫だろうか??

この論文で引用されている著者らのテクニカルレポート (52 pages)が詳しいだろう。

A. Gray and M. Haahr, "Personalised, collaborative filtering"

スパムフィルタの主流はメッセージの内容をもとに判断する方法だが、この論文では(今では、こちらもひとつの主流である)協調フィルタリングを提案し、実装している。内容にもとづく協調型フィルタリングを提案しているわれわれにとってのライバルといえるかも知れない。

協調フィルタでは、ある個人が受け取ったメッセージをスパムと判断した場合に、そのメッセージの特徴(signature)を彼と同様の判断を下しそうな人に伝える必要がある。このために、この著者らが提案するのはP2Pフィルタリングネットワークです。かなり、びっくり!具体的にスパムの判断が類似する人々がどのようにP2Pネットワークを組むのかについては論文を子細に読まなくてはならないだろう。もしかすると、われわれのプロファイルの共有方式にも応用できるかもしれない。評価結果を読むのが楽しみだが、検証を行っているのは小さな系(5ノード)での小規模(総メッセージ数 < 10,000)な実験にとどまっているのが残念。一応、おおまかな結果をまとめると false positive = [0.36,1.44], false negative = [0.00, 5.61]。false positive が大きすぎるかな。