bbmonkey62笨笨猴

中文分词

:: 管理 ::

2 随笔 :: 0 文章 :: 38 评论 :: 0 Trackbacks

2010年8月16日 #

淑珍分词器1.1.9版本源码开放下载

摘要: 这款发布的淑珍分词器版本是1.1.9，完全是基于字典分词，在提供下载的压缩包中含有编译好的jar包和所有的源代码，可以应用于Lucene3.0版本及以上中。
为了方便根据自己需要对分词器进行修改，我这里介绍一下淑珍分词器的核心数据结构，这个数据结构也是当初我在写分词器的时候，为了解决词库条目多和索引速度之间的相互制约而想出来的。
这个数据结构就是将词库中的每一个条目以一种特定的结构存储在JDBM或内存中，比如，对一个很常见的条目例子：“男女搭配干活不累”来举例子，在这种数据结构中，将被存储为如下key-value键值对：阅读全文

posted @ 2010-08-16 00:26 bbmonkey62笨笨猴阅读(1511) | 评论 (0) | 编辑收藏

2009年4月17日 #

解决在lucene中应用高亮显示所遇到的问题及ShuzhenAnalyzer-1.1.8发布

摘要: 对于搜索引擎而言，如果是提供一个类似于Google那样的web界面搜索的话，那对搜索结果进行高亮显示就很重要且必要了，不然将是非常不友好的，本篇文章就是介绍在lucene中应用HighLighter时的一些方面；文章分两部分，第一部分是介绍如何在lucene中应用Highlighter进行高亮显示而不影响到搜索速度。第二部分则是对一些高亮错误现象进行分析并给出解决方法，以及纠正对高亮错误存在的认识误区。总之，这篇文章就是希望能彻底解决在lucene中应用高亮显示所遇到的一切问题！另外淑珍分词器也发布了新的版本ShuzhenAnalyzer-1.1.7，也给出了一个淑珍分词器的演示地址
阅读全文

posted @ 2009-04-17 00:49 bbmonkey62笨笨猴阅读(1923) | 评论 (3) | 编辑收藏

仅列出标题

bbmonkey62笨笨猴

公告

常用链接

留言簿(2)

随笔档案(2)

友好链接

搜索

最新评论

阅读排行榜

评论排行榜