|
  |
 |
 |
 |
|
異質なデータを統合する方法として,それぞれのデータをカーネル行列に変換してから平均をとるアプローチがあります.もう一つの方法は,すべてネットワークに変換して重ね合わせるアプローチである.ゲノムデータのように大量のデータを表現するにはネットワークのほうがデータストレージの点で有利です.データ数がNのとき,カーネル行列ではNの二乗のメモリが必要です.ところが,ネットワークの場合,多くのデータはスケールフリー性を有するため,Nの二乗よりずっと小さいデータストレージで済む.複数の異質ネットワークを効果的に組み合わせる方法として,ネットワークに重みをつけて,重みを自動的に求める算法がすでに存在しています.しかし,この方法は不必要なネットワークほど大きな重みをつけてしまう算法になっていました.これに対して,Student-t分布というロバスト統計でよく用いられるツールを使って,重要なネットワークほど大きな重みをつけるMAP推定アルゴリズムを開発しました.これをタンパク質機能予測のタスクに適用した結果,従来法を圧倒的に上回る性能を示すことを確認しました.
|
|
|
|
|
|
文献 |
|
|
[9] Tsuyoshi Kato, Hisashi Kashima, and Masashi Sugiyama:
Integration of multiple networks for label propagation,
2008 SIAM International Conference on Data Mining (SDM08)[pdf][ppt]. |
|
|
[10] Tsuyoshi Kato, Hisashi Kashima, and Masashi Sugiyama:
Robust Label Propagation on Multiple Networks,
IEEE Transactions on Neural Networks, Vol.20, No.1, pp.35--44, 2008. [pdf] |
|
|
|
|
|