2天对lucene以及搜素引擎的一些了解

说起搜索引擎或许大家都并不陌生。
google 百度大家都用过的。
但是你是否对其实现有个概念呢?
昨天开始自己慢慢弄lucene,对其也有一点的了解了。
至少不再是刚入门什么也不懂的那种了。
一下是自己的理解:
搜索引擎实现功能应该大体分为2部分。
一、建立索引。虽然自己现在做的很有限,只是在文本文件下或是内存中建立的,而其信息的采集可以是自己的数据库中的,这个大家可以结合自己的数据库jdbc编程。完全可以实现的,还有一个就高深一点的。来自网络中的网页,Google baidu的信息采集都是用爬虫工具的。它如何实现的自己还不是很知道,以后这个在研究。反正就是把采集到的信息进行处理,使其在电脑中存在一个检索。
二、通过检索电脑检索信息,而达到搜索的用法。这中检索机制自己还没有深入研究,毕竟只学习了2天。

ps:网络爬虫占用带宽的,网上说Google爬虫做的很好,似乎强大过百度的,Google的爬虫不会再同一个IP中存在2个以上的爬虫。

posted on 2009-03-08 11:13 duduli 阅读(258) 评论(0)  编辑  收藏 所属分类: java


只有注册用户登录后才能发表评论。


网站导航:
 
<2009年3月>
22232425262728
1234567
891011121314
15161718192021
22232425262728
2930311234

导航

统计

公告

welcome to my place.

常用链接

留言簿(5)

我参与的团队

随笔分类

随笔档案

新闻分类

石头JAVA摆地摊儿

搜索

积分与排名

最新评论

阅读排行榜

评论排行榜

@duduli