bbmonkey62笨笨猴

中文分词

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  2 随笔 :: 1 文章 :: 40 评论 :: 0 Trackbacks

2009年4月17日 #

     摘要: 对于搜索引擎而言,如果是提供一个类似于Google那样的web界面搜索的话,那对搜索结果进行高亮显示就很重要且必要了,不然将是非常不友好的,本篇文章就是介绍在lucene中应用HighLighter时的一些方面;文章分两部分,第一部分是介绍如何在lucene中应用Highlighter进行高亮显示而不影响到搜索速度。第二部分则是对一些高亮错误现象进行分析并给出解决方法,以及纠正对高亮错误存在的认识误区。总之,这篇文章就是希望能彻底解决在lucene中应用高亮显示所遇到的一切问题!另外淑珍分词器也发布了新的版本ShuzhenAnalyzer-1.1.7,也给出了一个淑珍分词器的演示地址
  阅读全文
posted @ 2009-04-17 00:49 bbmonkey62笨笨猴 阅读(1093) | 评论 (3)编辑 收藏

2008年10月21日 #

     摘要: 此版本改进为:分词时采用了完全匹配方式(自命名的),也即将符合字典条目的词全部切分出来,在基于字典的分词中达到了“分无可分”的程度;分词时完全按照标准分词来进行,这样保证了在和一些高亮显示组件如highlighter一起使用时,能准确无误的将命中进行高亮显示,避免了Google高亮显示的Bug;配置文件的存放支持相对路径,这样更灵活,更方便应用在一些虚拟机上;字典条目支持导入到内存中,也就是在原有JDBM字典系统的基础上增加内存字典系统,且能方便自定义导入多少条目到内存中,能自定义使用内存还是JDBM字典系统还是两者结合起来使用,从而提高了索引创建速度;改进了对搜索词的处理;能对字典系统进行管理;另外也提供适合jdk1.5的版本。  阅读全文
posted @ 2008-10-21 01:12 bbmonkey62笨笨猴 阅读(1350) | 评论 (9)编辑 收藏

2007年8月24日 #

     摘要: 在很多时候,我们需要在服务器启动的时候,对系统进行一些初始化的工作,比如供应信息有一些类型(电脑,手机,自行车等等),这样的一些类型数据并不多,但经常要用到,很显然,如果每次都从数据库中调用是不划算的,因为可以考虑将这些数据加载到内存中,使得以后不用每次从数据库中取这样一些数据  阅读全文
posted @ 2007-08-24 12:39 bbmonkey62笨笨猴 阅读(247) | 评论 (1)编辑 收藏

仅列出标题