刀剑笑

用技术改善你的生活

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  13 随笔 :: 3 文章 :: 3 评论 :: 0 Trackbacks

1、SharpICTCLAS中词库的扩充

如果对SharpICTCLAS目前词库不满意的化,可以考虑扩充现有词库。扩充方法非常简单,代码如下:

词库扩充
static void Main(string[] args)
{
   string DictPath = Path.Combine(Environment.CurrentDirectory, "Data") +
                     Path.DirectorySeparatorChar;
   Console.WriteLine("正在读入字典,请稍候...");

   WordDictionary dict = new WordDictionary();
   dict.Load(DictPath + "coreDict.dct");

   Console.WriteLine("\r\n向字典库插入“设计模式”一词...");
   dict.AddItem("设计模式", Utility.GetPOSValue("n"), 10);

   Console.WriteLine("\r\n修改完成,将字典写入磁盘文件coreDictNew.dct,请稍候...");
   dict.Save(DictPath + "coreDictNew.dct");

   Console.Write("按下回车键退出......");
   Console.ReadLine();
}

通过AddItem方法可以轻松实现添加新词汇,添加时除了要指明词外,还需指明词性、词频。

2、其它工具

SharpICTCLAS示例代码中还提供了一些用于对文件进行预处理的工具类PreProcessUtility,里面提供了将GB2312中繁体汉字转换为简体字的代码,以及将全角字母转换为半角字母的方法,除此之外,还提供了对HTML文件进行预处理,去除HTML标记的方法,用户可酌情使用。

 

  • 小结

有关SharpICTCLAS的系列文章到此为止就全部结束。

来源:http://www.cnblogs.com/zhenyulu/category/85598.html

posted on 2007-12-28 20:43 刀剑笑 阅读(1033) 评论(3)  编辑  收藏 所属分类: SharpICTCLAS

评论

#  SharpICTCLAS分词系统简介(9)词库扩充(转) 2008-09-10 22:24 童辉
谢谢老师提供的资源!
首先,我想说的是,我现在做的是JAVA开发。目前因为项目需要,所以正在搜集关于中文分词,中文语意分析的相关资料!看到老师提供的教程讲解以及源代码,我非常高兴。因为我以前学过Winform,对此代码的阅读不是很困难!
下了代码,看了教程不一定就能会!所以,我希望能在今后的学习和将您的代码转为JAVA代码的时候,能得到老师您的帮助!
我的邮箱地址是:tonghui@sohu.com
期待您的佳音!
再次感谢!  回复  更多评论
  

#  SharpICTCLAS分词系统简介(9)词库扩充(转) 2008-09-10 22:25 童辉
对不起!邮箱地址写错了!
实在是不好意思!
我的邮箱地址是:tonghui348@sohu.com
抱歉了!  回复  更多评论
  

# re: SharpICTCLAS分词系统简介(9)词库扩充(转) 2008-11-01 17:55 刀剑笑
hehe,

共同进步

@童辉
  回复  更多评论
  


只有注册用户登录后才能发表评论。


网站导航: