bbmonkey62笨笨猴

中文分词

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  6 随笔 :: 1 文章 :: 38 评论 :: 0 Trackbacks

我的评论

GFW是缩写,为了避免连累到blogjava,不方便说全称,想要了解GFW,可以去Google搜索一下:gfw 网站屏蔽

to:Some Guy
源代码在以后某个时候可能会考虑公开吧,但现在还不是时候
这两天网站不知道被谁给屏蔽掉了,估计是GFW,但屏蔽前也没有给出任何的通知,真是无语,现在想投诉都不知道投诉谁了。。。

挺烦人的,也感觉很悲哀。。。

所以http://www.shuzhen.net现在在国内打不开了,除非用国外代理服务器才行

如果没有代理服务器的朋友要下载的话请去CSDN下载:

http://download.csdn.net/source/709857

如果没有CSDN账号觉得麻烦的话,可以去以下网址下载:
http://sites.google.com/site/wangxiao/Home/fen-ci-yu-sou-suo-ji-shu/shu-zhen-fen-ci-qi

这是一个网友的个人网站

造成不便非常抱歉
发现自己真晕,第二次打包上传的时候竟然又忘记删除一条分词时的调试打印信息了!
现在把这个打印信息删除后,重新又打包上传了
抱歉:由于疏忽,我将程序中一段已经不再用但又会被调用到的代码忘记删除了,导致2008年10月21日23点前的1.1.4版本在运行时报错,我已在2008年10月21日23点后重新打了包上传,请下载过的朋友们重新下载一遍,造成不便非常抱歉
re: ShuzhenAnalyzer-1.1.3中文分词器提供下载 bbmonkey62笨笨猴 2008-10-19 11:41  
@ameng
最近一两天会推出新的版本,在新的版本中会提供支持的,谢谢你的反馈
re: ShuzhenAnalyzer-1.1.3中文分词器提供下载 bbmonkey62笨笨猴 2008-09-27 11:24  
另外如果有什么问题的话,尽量到 http://www.zihou.com/bbs/thread.php?fid-14.html 这里提出,这是专门为这款分词器建立的版块,我好尽快给出反馈,blogjava我平常来的其实不多,因为来这里感觉压力比较大。。。
re: ShuzhenAnalyzer-1.1.3中文分词器提供下载 bbmonkey62笨笨猴 2008-09-27 11:20  
@shguan

还是环境设置问题吧,你或者可以到

http://www.zihou.com/bbs/thread.php?fid-14.html

里发个帖子,问一个会员名是 gcgmh 的朋友,看他是如何解决这个问题的,他之前也遇到过了这个版本问题,后来他解决了,但他没有把是如何解决的帖出来,我也没有问。
re: ShuzhenAnalyzer-1.1.3中文分词器提供下载 bbmonkey62笨笨猴 2008-09-25 19:42  
@shguan
对,ShuzhenAnalyzer用的是jdk1.6编译的,你如果用的eclipse,通过以下操作:
鼠标右键选中你的工程名,然后点鼠标右键,在弹出的菜单中选择“Properties”,然后在弹出的窗口中,点“Java Compiler”,就可以看到在右边用来编译的的JDK版本了,如果不是显示的6.0,则选为6.0然后再编译
对以上步骤如果还不是很清楚,可以参考这个帖子:
http://bbs.zihou.com/htm_data/14/0809/370.html
这个里面有图文说明
re: ShuzhenAnalyzer-1.1.3中文分词器提供下载 bbmonkey62笨笨猴 2008-09-25 14:01  
有朋友反馈说,ShuzhenAnalyzer在分词速度方面(相比其他某一款分词)还是有些不足,所以在这里说明一下:

这款分词器在速度方面有一个无法避免的“硬伤”,那就是加载字典的方式,采用了JDBM系统为字典存放的系统,的确是杜绝了加载到内存中出现内存溢出的问题,但同时由于对硬盘的存取速度肯定比对内存的要慢,所以假设在同等条件下进行分词,速度方面会不及字典加载在内存中的。

虽然在算法方面尽量地去改善分词速度,但这一硬伤却总是存在着的。(目前速度其实还有提高的可能,只是一来由于在应用中,目前速度已经达到了所能满意的程度,二来速度要再提高一些,难度也更大,而且目前注意力也转移到了其他方面,所以速度方面的提高暂时放了下来)
我一向都很尊重人的言论自由,不过今天删除了这篇博文的两个评论,是因为这种评论完全是没有来由,一个说是思想不成熟,但是我诚心地回复了说是哪里不成熟,但此人又不再回复,我等了好几天也没有回复说是哪里不成熟,所以最后还是决定删除;还有一个评论说没有技术性东西,瞎扯,但这本来是篇杂谈,标题都没有看清楚,所以我决定也删除了。
希望朋友们评论的时候如果发现有什么问题,在发表高见的同时请说明是哪里的问题,我本人一向都很愿意接受别人的指正。
谢谢
@Strive
你说的很对,你说的是语义识别方面的,这方面相对要复杂一些,但对分词来讲却是非常重要的一部分。基于字典的其实是很傻瓜型的,只适用于那些要求不高的搜索。
语义这部分我也准备以后有空加进来,只是目前感觉还没有想好

多谢你的指点啊 ^_^
@YYX
可以的,在字典里写入 帽子 这个词,但不要写入 爱戴 就可以了