我的蛋壳

倡导自由、开放、分享的Java技术社区 http://www.javaread.com
随笔 - 32, 文章 - 0, 评论 - 109, 引用 - 0
数据加载中……

好东西,是要和朋友分享的哦:Ictclas4j中文分词系统

       Ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。

关于ICTCLAS分词系统的讨论,可以访问google group关于ictclas分词系统的讨论组http://groups.google.com/group/ictclas

另外“春江润楠”大哥对它还做了一些改造,大家可以参阅一下:http://chenyr.spaces.live.com/blog/cns!7BF57CE83A7A863D!394.entry

下载地址:http://code.google.com/p/ictclas4j/downloads/list

另外还有个挺不错的开源项目MMSeg,用起来也蛮简单,分词的正确度还不错,有兴趣的朋友也可以参考一下:

MMSeg,挺不错的一个开放源代码的中文分词软件包



本文作者:javaread.com

posted on 2008-08-02 22:01 javaread.com 阅读(1243) 评论(1)  编辑  收藏

评论

# re: 好东西,是要和朋友分享的哦:Ictclas4j中文分词系统  回复  更多评论   

还不错,不过相较之下,我更喜欢MMSeg,提供了丰富的chunk和rule,一般都可以满足项目的需求。如果对词库结构不满意的话,还可以变更词库结构,源代码只要简单修改存储对象和读取方式就可以啦。
不过--还没弄明白chars.lex这个词库文件是来干嘛的,研究ing。
2008-08-02 22:06 | kenlee14

标题  
姓名  
主页
验证码 *  
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交