bbmonkey62笨笨猴

中文分词

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  2 随笔 :: 0 文章 :: 38 评论 :: 0 Trackbacks

08 2010 档案

     摘要: 这款发布的淑珍分词器版本是1.1.9,完全是基于字典分词,在提供下载的压缩包中含有编译好的jar包和所有的源代码,可以应用于Lucene3.0版本及以上中。
为了方便根据自己需要对分词器进行修改,我这里介绍一下淑珍分词器的核心数据结构,这个数据结构也是当初我在写分词器的时候,为了解决词库条目多和索引速度之间的相互制约而想出来的。
这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中,比如,对一个很常见的条目例子:“男女搭配干活不累”来举例子,在这种数据结构中,将被存储为如下key-value键值对:  阅读全文
posted @ 2010-08-16 00:26 bbmonkey62笨笨猴 阅读(1475) | 评论 (0)  编辑