種々の生物の持つ遺伝子に関するデータが急激に蓄積されつつある。 その多くが仮説的なタンパク質としてアミノ酸の系列(アミノ酸配列) の形で与えられる。既知のタンパク質と、局所的に類似したアミノ酸 配列を持つ領域(共通保存領域)が存在し、タンパク質として重要な 部位と考えられている。この領域を検出する方法として、各アミノ酸 配列から固定長ブロックを切り出して相互の類似度から計算される 密度が最大となる組合せを求める手法が開発されている。本報告では その手法においてボトルネックとなっていた類似度計算の高速化と 統計的手法によるより適切な類似度スコアの求め方について検討する。
Back