﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-离弦之ray的技术天空-随笔分类-毕业设计</title><link>http://www.blogjava.net/clraychen/category/20585.html</link><description /><language>zh-cn</language><lastBuildDate>Tue, 13 Mar 2007 11:51:50 GMT</lastBuildDate><pubDate>Tue, 13 Mar 2007 11:51:50 GMT</pubDate><ttl>60</ttl><item><title>lucene</title><link>http://www.blogjava.net/clraychen/archive/2007/03/12/103381.html</link><dc:creator>离弦之ray的技术天空</dc:creator><author>离弦之ray的技术天空</author><pubDate>Mon, 12 Mar 2007 11:44:00 GMT</pubDate><guid>http://www.blogjava.net/clraychen/archive/2007/03/12/103381.html</guid><wfw:comment>http://www.blogjava.net/clraychen/comments/103381.html</wfw:comment><comments>http://www.blogjava.net/clraychen/archive/2007/03/12/103381.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/clraychen/comments/commentRss/103381.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/clraychen/services/trackbacks/103381.html</trackback:ping><description><![CDATA[
		<p>  决定把自己的毕业设计寄予lucene纯属偶然，因为萌生了一些想法，去图书馆，然后就发现了一本书，看着上面介绍的lucene觉得倒是个毕业设计的好材料。</p>
		<p>  lucene在全文检索方面似乎名声在外，看来我以前是过于浅薄了。下了那本关于lucene的经典书籍《lucene in action》照着上面的实例代码，基本就能搭起一个简易本地搜索引擎来。</p>
		<p>  说白了，lucene就是个工具包，用里面的工具，就能做搜索引擎。<br />   <br />  基于lucene的搜索引擎的处理流程说的简单点就是下面几步：<br />  第一步，就是把文件变成lucene的Document对象。<br />  第二步，把这些对象建成索引。<br />  第三步，对这些索引进行搜索。</p>
		<p>  我觉得第一步和第二步是可以作深入研究的。</p>
		<p>  lucene专注于全文检索，处理的对象是文本，所以第一步就是想尽办法把文档中的文本内容提取出来。<br />  txt格式不用提取，主要就是word、html、pdf等等。<br />  《lucene in action》上面对主流文档格式都列举了一两个提取工具，大都是开源的。</p>
		<p>  然后就是把这些文本内容封装成Document对象。<br />  既而建立索引，继而进行搜索。</p>
		<p>  说的很简单，但lucene奥妙无穷，里面有很多参数可以控制，都可以直接影响到搜索引擎的效率。<br />  有兴趣的具体看一下那本书。</p>
		<p>
		</p>
<img src ="http://www.blogjava.net/clraychen/aggbug/103381.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/clraychen/" target="_blank">离弦之ray的技术天空</a> 2007-03-12 19:44 <a href="http://www.blogjava.net/clraychen/archive/2007/03/12/103381.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>