herodby
技术 笔记
posts - 14,  comments - 14,  trackbacks - 0
     摘要: 很久没有写技术blog了,这段时间心血来潮 对云计算,云存储产生兴趣,遂先把自己实际的安装配置笔记 记录下来。  阅读全文
posted @ 2011-12-08 13:14 邓兵野 阅读(3488) | 评论 (2)编辑 收藏
     摘要: 最近一直想写个和搜索相关的东东,所以简单了解搜索引擎方面的知识,个人总结一个垂直搜索引擎 包含以下几个部分:
1 web 爬虫,抓取目标页面的内容。
2 数据预处理,把抓取下来的数据进行去噪,例如使用htmlparser等工具对去掉无用的标签数据等等,把
数据结构化DB或者其他存储系统已被后面使用。
3. 建立索引。
4. 分词,开发检索因子, 对索引数据进行检索。
5. 把检索到的数据,在web段展现。
下面就结合heritrix1.14.3 和lucence2.2.0,介绍下,整个搜索引擎的开发过程。
  阅读全文
posted @ 2009-06-26 02:35 邓兵野 阅读(3856) | 评论 (2)编辑 收藏

<2009年6月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用链接

留言簿(2)

随笔分类

随笔档案

文章分类

文章档案

搜索

  •  

最新评论

阅读排行榜

评论排行榜