bbmonkey62笨笨猴

中文分词

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  2 随笔 :: 0 文章 :: 38 评论 :: 0 Trackbacks

2009年4月17日 #

     摘要: 这款发布的淑珍分词器版本是1.1.9,完全是基于字典分词,在提供下载的压缩包中含有编译好的jar包和所有的源代码,可以应用于Lucene3.0版本及以上中。
为了方便根据自己需要对分词器进行修改,我这里介绍一下淑珍分词器的核心数据结构,这个数据结构也是当初我在写分词器的时候,为了解决词库条目多和索引速度之间的相互制约而想出来的。
这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中,比如,对一个很常见的条目例子:“男女搭配干活不累”来举例子,在这种数据结构中,将被存储为如下key-value键值对:  阅读全文
posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 阅读(1475) | 评论 (0)编辑 收藏

     摘要: 对于搜索引擎而言,如果是提供一个类似于Google那样的web界面搜索的话,那对搜索结果进行高亮显示就很重要且必要了,不然将是非常不友好的,本篇文章就是介绍在lucene中应用HighLighter时的一些方面;文章分两部分,第一部分是介绍如何在lucene中应用Highlighter进行高亮显示而不影响到搜索速度。第二部分则是对一些高亮错误现象进行分析并给出解决方法,以及纠正对高亮错误存在的认识误区。总之,这篇文章就是希望能彻底解决在lucene中应用高亮显示所遇到的一切问题!另外淑珍分词器也发布了新的版本ShuzhenAnalyzer-1.1.7,也给出了一个淑珍分词器的演示地址
  阅读全文
posted @ 2009-04-17 00:49 bbmonkey62笨笨猴 阅读(1852) | 评论 (3)编辑 收藏