﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-爬虫工作室-随笔分类-搜索引擎</title><link>http://www.blogjava.net/gooogle/category/21615.html</link><description>思考Google</description><language>zh-cn</language><lastBuildDate>Tue, 17 Apr 2007 02:43:01 GMT</lastBuildDate><pubDate>Tue, 17 Apr 2007 02:43:01 GMT</pubDate><ttl>60</ttl><item><title>Lucene学习一</title><link>http://www.blogjava.net/gooogle/archive/2007/04/16/110923.html</link><dc:creator>爬虫工作室</dc:creator><author>爬虫工作室</author><pubDate>Mon, 16 Apr 2007 04:09:00 GMT</pubDate><guid>http://www.blogjava.net/gooogle/archive/2007/04/16/110923.html</guid><wfw:comment>http://www.blogjava.net/gooogle/comments/110923.html</wfw:comment><comments>http://www.blogjava.net/gooogle/archive/2007/04/16/110923.html#Feedback</comments><slash:comments>1</slash:comments><wfw:commentRss>http://www.blogjava.net/gooogle/comments/commentRss/110923.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/gooogle/services/trackbacks/110923.html</trackback:ping><description><![CDATA[最近要用到全文检索技术。<br>这个Lucene是个在java界有着很高声誉的全文检索包。<br>通过学习，自己对它算是有个初步了解。所以写下心得与经验跟朋友们分享。<br>对于整个网站的结构我说下我的看法<br>数据库+前端技术+后台处理技术。<br>上面的这些我就不说了。用来用去就是那几个，你觉得那个用的顺手就行了。<br><br>搜索引擎技术呢，我觉得要点是：<br>1。把我们分散的数据资源整合起来-----对应于Lucene的Index也就是索引的意思。<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 我们把数据库的数据，按照自己的方式进行索引，关于索引的技术可以上网查看。这些索引的数据结构是可以自己定义的，这样方便查询。<br>2。搜索技术，因为我们的资源太分散了，就拿数据里面的资源来说吧，每个表都不同，里面的字段都不同，如果单纯采用数据库来做的话，你可能要写很多个api进行搜索。并对搜索结果进行出里，这样我们就要自己做很多事情。这么麻烦的话，我们何不把这些数据库里面的数据进行索呢，把我们需要的数据，归类，整理，然后保存到索引中，虽然这样会增加磁盘的容量，但我觉得这应该就不是问题。<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 对于搜索技术，我们这里又要涉及到关于分词的技术，因为我们中文不同洋文，对分词技术的要求比较高。在这里，我也只是略微看了下Lucene的理论，具体实现，我也很模糊。如果分词分的好，对于搜索精度是有很大帮助的。<br><br>3。说实话索引就是一个数据库。他可以更新，删除，修改等。<br>先记录下这么多，以后在项目中实践的时候，继续说说我的理解<br>理解可能偏差比较大。大家不要被我误导啊。<br>不错的关于lucene英文书 <a href="http://www.lucene.cn/Lucene_in_%20Action.pdf">点此下载</a>。
<br><img src ="http://www.blogjava.net/gooogle/aggbug/110923.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/gooogle/" target="_blank">爬虫工作室</a> 2007-04-16 12:09 <a href="http://www.blogjava.net/gooogle/archive/2007/04/16/110923.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>