Google于2010年4月将一个新的增量索引架构Percolator部署到了websearch index上,并命名为Caffeine(咖啡因)。自己最近发现网上写的日志什么会很快的被Google索引到,而百度则要慢得多,因此特意去找了这篇paper的原文来仔细拜读了下。

Google的Percolator增量索引更新是针对在一个大的数据源中只有少部分被更新需要重新索引而设计的,并没有取代之前的Map/Reduce方式,即原来的索引更新是当增量的数据到达一定规模时,对repository进行MR重新建立索引并加入全局索引。而采用了新的Percolator系统后,每天处理和之前相同规模的文档,平均的生命周期缩短了50%(即从网页被爬取下来到处理,索引完成可以被搜索引擎搜索到的时间间隔)。

Percolator的架构图:

Percolator由Worker, Bigtable, GFS三部分组成,Percolator提供了一系列的observer关联在worker上,这些observer定义需要观察的data table中的columns,当该columns发生变化时,对应的observer会作为一个function call被worker process调用,Percolator的应用程序就是由一系列的observers组成的,每个observer。

阅读全文…

,