研究メモ
疑問
- Bayes方式のスパムフィルタを用いて、個人のメッセージを他人のフィルタを用いることの有効性は有効か。
- Aの辞書(DA)を用いてBのメッセージをフィルタリングできるとはどういうことか?
- AはDAを用いて、メッセージを評価し、評価の指標として閾値tAを用いる。Bは、DAとtAをそのまま用いるよりも、BのためにDAを用いてtBを学習させた方が効果が高いかもしれない。
- 多くの人々(P = {A, B, C, ...})のスパムフィルタとして利用できそうなフィルタを持っている人物Aが見つかった場合に、共有フィルタはどのように構成すればいいか。
- Pたちの辞書を合成して、全員の総意を表すような辞書DPを作成し、DPを用いて各自が閾値を学習すればいいかもしれない。この時点で、どれだけの人がDPを利用できなくなるかという点は興味深い。
協調型Bayse式フィルタのアイデアを実証するための実験
- 1,000人の仮想ユーザについてスパムフィルタ(=辞書)を生成する。
- 仮想ユーザのペア(A, B)について相互のフィルタを利用して閾値を学習し、相互のフィルタの利用可能性を調べる。利用可能性としては、自己のフィルタと比較して、ほぼ遜色のないフィルタであれば利用可能と判断できるものとする。
- 利用可能性に関するグラフ(A が B のフィルタを利用可能なら、A → B)を作成し、それをクラスタリングする。
- ボスが率いる配下が小さい場合、ボスが見つからない人についてはそもそも協調型フィルタを提供することの意味が問われるかもしれない。仮にこういうグループを無視したら、全体の性能はどこまで向上するだろうか。(一部の変な人をサポートするために多くの人々が)
- 一定のrankより大きなボスたちに対するフィルタの生成を無視すれば、共有フィルタの数を削減することができる。
- 無視するrankとその結果、フィルタサービスを利用できなくなるユーザ数の関係(cut-off rank vs. #users)をプロット
- 実験用のメッセージ集合を用いて、recall/precisionを計測する。結果をどのように示すのがよいか?*2
今後の予定
- (実験)協調型フィルタの時系列的な安定性に関する実験
- 性能劣化の際のフィルタの共有方式の再構成のアルゴリズムの提案および実験(実験はシミュレーションシステムではなく、support 関係の時系列的な変化のデータをもとにできるはず)