発表内容の概要

種々の生物の持つ遺伝子に関するデータが急激に蓄積されつつある。その多くが仮説的なタンパク質としてアミノ酸の系列（アミノ酸配列）の形で与えられる。既知のタンパク質と、局所的に類似したアミノ酸配列を持つ領域（共通保存領域）が存在し、タンパク質として重要な部位と考えられている。この領域を検出する方法として、各アミノ酸配列から固定長ブロックを切り出して相互の類似度から計算される密度が最大となる組合せを求める手法が開発されている。本報告ではその手法においてボトルネックとなっていた類似度計算の高速化と統計的手法によるより適切な類似度スコアの求め方について検討する。

Back