DNA配列のなかでタンパク質に翻訳される部分がアミノ酸配列と いう形で一般に公開されている. アミノ酸配列は20種の文字で表現 された文字列として解析できる.文字の系列が似た配列はタンパク 質としての機能も似ていることが知られている.本研究では一般化 接尾語配列というデータ構造を用いて文字列集合から最も頻繁に出 現する部分文字列を探索する. さらに, 実際に公開されている11種 の生物のアミノ酸配列集合に対して, 本手法を適用した結果につい ても報告する.
Back