1.介绍
nutch是一个完全开源的搜索引擎包,它的效率可以和商业搜索引擎相媲美.作为一个研究平台,nutch有开放灵活的架构,用户可以制定个性化的搜索引擎.nutch的建立目的是增加web搜索的透明性.
2.架构
nutch有高质量,模块化的架构特点允许使用插件来进行,media-type解析,html分析,数据检索协议和查询.有四个主要的模块:
searcher:
给一个查询,必需快速的找到最小的相关结果子集,然后呈现他们.发现一个比较大的相关子集工作是建立一个文档集的倒排索引,排序以产生最相关的文档.
indexer:
创建倒排索引,使用lucene存储倒排索引.
数据库:
为索引存储文档内容,以及为搜索存储摘要.伴随着像文档的链接结构这样的信息.
Fetcher:
请求web页面,解析他们,抽取链接.