bbmonkey62笨笨猴

中文分词

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  2 随笔 :: 0 文章 :: 38 评论 :: 0 Trackbacks

我的评论

re: 对搜索引擎同义词支持的实验, 分析模拟 bbmonkey62笨笨猴 2010-08-16 10:02  
目前所有的搜索引擎都只是按关键词查找内容,最多也只是做了一些很简单的处理,比如搜索:武大,可能会把武汉大学也搜索出来,但像你这篇文章中提到的,现在还没有搜索引擎能做到。
以后的搜索引擎可能会在智能程度提高,但难度也是非常大的。
写得很好
请在2009-04-17下午5点35分以前下过1.1.6版本的朋友们再重新下一遍,由于我之前测试得不够严密,5点35分以前的1.1.6版本在对搜索词进行处理(segmentKeyExact(key)和segmentKeyFuzzy(key))时,当搜索词是某种组合的时候会导致比较严重的错误,其他功能没有发现问题,非常抱歉,敬请谅解
@mrzhu
在建立索引时,lucene是支持索引非文本数据的,我不知道你在索引的时候是怎么用的,但我建议你去看如下内容:
在org.apache.lucene.document.Field里的构造方法:
public Field(String name, byte[] value, Store store)
请留意第二个参数,在建立索引的时候允许非文本的字符,比如大文件类型转换为byte[]型索引起来,然后你取的时候再做相应的转换

我没做测试,你可以去测试下是否可行,我觉得是可以的。。。