Gmailのスパムフィルタ

中身がほとんど見えない Gmail のスパムフィルタなのですが、ちらりと書かれてたのでリンクしておきます。

しばらく前に佐藤くんが株式取引に関わるスパムは検知が難しいと言ってました。普通のスパムの目的は、ウェブページへの誘導だと言われています。あらかじめ用意されたウェブページを見せることが目的なので、スパムにはそのウェブページのアドレスが含まれます。大量に類似したウェブアドレスが出現すれば、それがスパムのサインと言えるのです。

一方、株式取引に関わるスパムの目的は情報を撹乱させることにあります。「ある株が上がりますよ」という情報を流して、実際にその株が上がったときに売り抜ければラッキーということになります。この場合、スパムにはさきほどの例のようなウェブアドレスは現れません。変質的な語彙が使われているわけでもないので、株取引に関わる情報をメールで得ているような人の場合には、Bayes 方式のようなコンテンツを眺める方式もあまり有効ではないでしょう。

Gmail もこのようなメッセージは見落とすことになるでしょう。そして、多くのユーザが「迷惑メッセージとして報告」してくれたときに、何が起きるのか?これを評判情報として、協調フィルタリングをするのか、それとも Google の技術者が特製のフィルタを書くのか。。。今日のブログを見ると、その両方をやっているように思えます。かなり人手でがんばっていると。