スパム

研究メモ

2/21の日記に書いた閾値の設定方法は佐藤くんがずいぶん試行錯誤をしてくれたものの、うまくいかなかった。彼の努力の副産物として、HTMLメールに対する検出能力がかなり向上したようです。手作業で閾値を調整すればわりとうまくいくということなので(佐藤…

Gmailのスパムフィルタ

中身がほとんど見えない Gmail のスパムフィルタなのですが、ちらりと書かれてたのでリンクしておきます。しばらく前に佐藤くんが株式取引に関わるスパムは検知が難しいと言ってました。普通のスパムの目的は、ウェブページへの誘導だと言われています。あら…

データ圧縮とスパム発見

増井さんのブログにPPM (Prediction by Partial Matching) と呼ばれるデータ圧縮の方法とそれを応用したスパムメッセージの発見法 (CACM 2月号)が紹介されていました。データ圧縮によってスパムを発見するという手法については、以前、佐藤くんが論文を紹介…

研究メモ

Bayesianスパムフィルタにおいて、スパム判定の閾値を自動的に設定する方法について。教師データとしては、スパムあるいはハムとラベル付けされたメッセージの集合(M)を用いる。ここで教師データのうち、スパムメッセージの集合を S、ハムの集合を H とする…

研究メモ

辞書、単語、GETA、協調フィルタリング: ひらめいたかも

研究メモ

n人の仮想ユーザのそれぞれ(ui)が受け取るメッセージの集合をMjとする。全ユーザをU = ∪ ui、メッセージ全体M = ∪ Mjとする。すべてのメッセージをすべてのユーザのフィルタに与えた評価値を収集する。各評価値を得て、スパム性判断の閾値の学習を行い、一定…

研究メモ

メーリングリストを組み合わせることで仮想ユーザを合成する実験方式にあった懸案を除去した。元々のアイデアはハムはメーリングリストから送られてくるメッセージ集合、スパムはハニーポットで収集したものとしている。この場合、ハムにはメーリングリスト…

研究メモ

疑問 Bayes方式のスパムフィルタを用いて、個人のメッセージを他人のフィルタを用いることの有効性は有効か。 Bayes方式のスパムフィルタでは、通常、単語の出現頻度に関する情報(辞書)を学習する。辞書だけでなく、スパムの判定に用いる閾値も学習できるの…

Spam Deobfuscation

しばらく前にCEAS 2005の論文概要を二つ紹介しましたが、ようやくそのうちの一方を真面目に読み終えました。隠れマルコフも堂々マルコフも存じあげなかったのですが、基本的なコンセプトは簡単なようです。 H. Lee and A. Ng, "Spam Deobfuscation using a H…

CEAS 2005

昨日に続いて、スパムに関する国際会議の論文を紹介します。今日は、2005年の国際会議で発表された論文集から5件を選んでみました。論文概要はしっかりと読み、内容はパラパラとみくった程度ですから、詳細については踏み込みません。今日、紹介するのは以下…

CEAS 2004

Conference on Email and Anti-Spamのなかから、面白そうな論文を学生さんにピックアップしてもらったので、アブストラクトを眺めながらまとめてみました。