lyyb2001

只是为方便自己找记录而已

posts - 57, comments - 27, trackbacks - 0, articles - 5

语源科技BlogJava :: 首页 :: 新随笔 :: 联系 :: :: 管理

java搜索引擎: lucene学习笔记

Posted on 2007-03-05 08:36 skycity 阅读(370) 评论(0) 编辑收藏所属分类: APACHE开源项目

简介
Doug Cutting 于2000年开始的项目 2001年9月后加入apache, Lucene是Doug Cutting的middle name 。目前Lucene已经是apache的top level的项目，已经不在jakarta下面，同时也有了python，perl，c++，.net, Ruby(进行中)多个版本
Lucene 主要的两个任务:indexing and searching

Indexing主要使用的类
IndexWriter	index文件由它创建
Directory	标志Index路径的类：FSDirectory(文件系统)和RAMDirectory(内存)
Analyzer	分析器，处理分词,大小写,词根,消除stop words等,转换格式
document	用于存储field对象
Field	有4(5?)种类型的Field, 下面专门列出

stop words: 出现频率非常高的一些词汇,它们一般没有检索的意义, 比如英文中的(as a, an, the, in)

类型	Analyzed	Indexed	Stored	说明
Field.Keyword(String)		Y	Y	储存直接检索的对象(身份证号,姓名,日期)
Field.UnIndexed(String,String)			Y	不用于检索信息,显示文件类型、地址
Field.UnStored(String,String)	Y			大段文本内容,会用来检索,但是不存储
Field.Text(String,String)	Y	Y	Y	检索,获取都需要的内容,直接放index中,不过这样会增大index
Field.Text(String,Reader)	Y	Y		建议采用Unstored的策略.

Searching主要使用的类
IndexSearcher	以只读的方式访问index(注意IndexReader不是只读的),需要传给他一个Query对象来搜索
Term	Term是一个搜索的基本单位,包含Field(目标)和value(条件),可以直接用new Term("field","value")构造
uery	uery有很多子类,比如BooleanQuery,PhraseQuery等,可以在Term基础上加上逻辑(是否, 或)
TermQuery	很基本的Query, 可以由term构造 new TermQuery(term);
Hits	包含了搜索的结构,默认按照相关度排序,hits并不会把所有记录(可能很大)直接保存,而是有一个lazy loading机制

Lyyb2001

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: STRUTS2获得session和request Log4j基本使用方法 Lucene：日志查询(二)[查询] Lucene：日志查询(二)[创建索引二] Lucene：日志查询(二)[创建索引] lucene：日志查询(一) java搜索引擎: lucene学习笔记

lyyb2001

java搜索引擎: lucene学习笔记

日历

公告

常用链接

留言簿(5)

随笔分类

随笔档案

文章分类

文章档案

搜索

最新评论

阅读排行榜

评论排行榜