bbmonkey62笨笨猴

java技术探讨与交流

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  6 随笔 :: 1 文章 :: 30 评论 :: 0 Trackbacks

2008年9月20日 #

     摘要: 距上一版本推出的时间都已一月有余了,现在终于能推出一个让我感到踏实的版本了!说是踏实,是因为此版本目前已被应用在了一个每天有近百万次访问量的比较大型的系统中,每天提供过百万次的搜索结果,经过一段时间的运行,可说是做到了运行稳定,搜索快速,而前几个版本都未有过这种正式环境的运行。这个版本与上一个版本1.1.2相比,主要是在搜索质量方面得到了比较大的提高,另外在分词准确性方面也得到了一点提高,其他的比如速度等方面没有什么变化。  阅读全文
posted @ 2008-09-20 20:38 bbmonkey62笨笨猴 阅读(1543) | 评论 (8)编辑 收藏

2008年8月6日 #

     摘要: 在此版本中写了一个比较好的算法,终于能比较完美地将字典条目数量与索引创建速度两者结合在一起了!此版本从理论上讲,字典条目数量可以无穷大,而绝不会出现内存溢出这样的错误,另外在索引创建以及搜索速度方面,受字典条目的影响微弱到可以忽略不计,另外对字典系统的管理功能除了添加功能外,也加入了对字典条目的删除功能,此外,新引入了一个外部包jdbm,这是一个非常好的文件管理系统  阅读全文
posted @ 2008-08-06 17:04 bbmonkey62笨笨猴 阅读(1173) | 评论 (5)编辑 收藏

2008年7月8日 #

     摘要: Lucene允许分词器的扩充,或换句话说也就是允许你自己编写的分词器应用到Lucene中,那么Lucene是如何做到这点的呢?如果让我们来自己设计,我们会如何做呢?下面将以Lucene自带的标准分词器StandardAnalyzer来予以说明  阅读全文
posted @ 2008-07-08 00:54 bbmonkey62笨笨猴 阅读(1038) | 评论 (2)编辑 收藏

2008年7月4日 #

     摘要: 我同意要想写出一个自己的分词器,去分析别人的代码是必须的,但毫无疑问地是这肯定也是个相当痛苦的过程!
我分析过Lucene自带的StandardAnalyzer,刚开始的时候我是想要直接修改StandardAnalyzer的分词就好了,在单字分词的基础上增加基于字典分词的功能,但不久后我发现我得改弦易辙了,因为看上去实在太复杂了,我实在想不出来为啥写个分词器还要动用到javacc这个东西,没办法先去掌握了javacc这个东西如何生成java文件后,发现还是让人感觉太复杂,简单的单字分词就总共有10个类文件!所以我就转而求其他解决方法了。  阅读全文
posted @ 2008-07-04 21:44 bbmonkey62笨笨猴 阅读(1812) | 评论 (3)编辑 收藏

2008年6月29日 #

     摘要: 上篇说到分词的时候以分蛋糕为例子来说明,从汉语语法上来说是为动宾短语,而实际上分词也是一个名词,表示的就是一个字或词,而此时“分”是个形容词,之所以叫分词就是表示这个词是经过划分出来的,此所谓分词也。在lucene中与分词这一名词对应的单词就是token.  阅读全文
posted @ 2008-06-29 14:40 bbmonkey62笨笨猴 阅读(1109) | 评论 (0)编辑 收藏

2008年6月27日 #

     摘要: 前不久需要一个能满足自己需求的中文分词器,结果找了找,感觉都很不满意,让自己满意的还是得自己定制,所以还是决定自己写一个中文分词器出来,然后自己写了个基于字典的中文分词器ShuzhenAnalyzer,它的分词规则是基于字典的,比如对这样一句话"保护我们共有的地球",如果字典里没有设置任何相关的词,则将分为保|护|我|们|共|有|的|地|球,如果是在字典里设置了比如"地球","保护"等,则将分为保护|我|们|共|有|的|地球。  阅读全文
posted @ 2008-06-27 18:07 bbmonkey62笨笨猴 阅读(1502) | 评论 (7)编辑 收藏

2007年8月24日 #

     摘要: 在很多时候,我们需要在服务器启动的时候,对系统进行一些初始化的工作,比如供应信息有一些类型(电脑,手机,自行车等等),这样的一些类型数据并不多,但经常要用到,很显然,如果每次都从数据库中调用是不划算的,因为可以考虑将这些数据加载到内存中,使得以后不用每次从数据库中取这样一些数据  阅读全文
posted @ 2007-08-24 12:39 bbmonkey62笨笨猴 阅读(135) | 评论 (1)编辑 收藏

仅列出标题