単独の検索エンジンを用いた全文検索システムでは、物理
的なディスク容量、検索結果を得るまでにかかる時間等の
制限から、扱うことができる文書数に上限が存在する。そ
の上限を超えるためには、複数の検索エンジンに文書を分
散させる必要がある。今回、NTTの夏季実習において、「
全文検索システムにおける検索エンジンの並列化」という
テーマで実習を行った。一つの文書集合を、独立な複数の
文書集合に分割し、各文書集合を担当する検索エンジンを
用意する方法で、単独の検索エンジンを用いたシステムと
比較して、扱える文書数の上限を検索エンジンの台数倍に
できたとともに、同じ文書集合を扱う検索において、検索
に必要となる時間を短縮することができた。
Back