posts - 110,  comments - 152,  trackbacks - 0

晚上花了将近两个小时的时间,看了网络上一些关于Nutch的介绍.
搞明白的几个问题:

1.Nutch到底是什么?

Nutch是一个开源的Java语言实现的搜索引擎。它通过完整功能的搜索系统。

2.Nutch和Lucene到底是什么关系?两者如何取舍?

Nutch基于Lucene,Lucene为Nutch提供文本索引和搜索API。两者的取舍问题在于Lucene不能够为你抓取数据,所以如果在有数据源的情况下最好的方式是使用Lucene API来建立索引,完成搜索。如果需要抓取数据的话,那自然是选择Nutch为好。

3.Nutch的基本安装步骤?

这个问题有官方文档。在这里。

PS:似乎网络Nutch上最多的帖子就是关于这个的.其中比较有意思的就是摆脱Cgywin的一些方法,比如利用window批处理或者利用ant.个人还是觉得ant更通用.

4.Nutch的基本组成?

Nutch基本上两部分组成:抓取部分和搜索部分。抓取程序抓取页面并将抓取回来的数据做成反向索引;搜索程序则将反向索引搜索回答用户的请求。两者的关联部分在于索引。
具体内容还需要仔细看文档和介绍.

5.Nutch文档集中地?
http://wiki.apache.org/nutch/

补充完成,今日继续。愚人节快乐!



平凡而简单的人一个,无权无势也无牵无挂。一路厮杀,只进不退,死而后已,岂不爽哉!
收起对“车”日行千里的羡慕;收起对“马”左右逢缘的感叹;目标记在心里面,向前进。一次一步,一步一脚印,跬步千里。
这个角色很适合现在的


posted on 2008-04-01 16:50 过河卒 阅读(465) 评论(0)  编辑  收藏 所属分类: Java/Java框架

只有注册用户登录后才能发表评论。


网站导航:
 
文章来自: http://www.blogjava.com/ponzmd/ (彭俊-过河卒) 转贴请声明!
访问统计: