随笔-28  评论-51  文章-10  trackbacks-0
从现在开始,开始我真正的研究计划:聚类获取有价值的信息。
今天开始详细了解了已有的资源和项目代码,包含中文分词,文档向量化,现有的KA+K-MEANS聚类算法。但是据观察,聚类效果上不是很满意,主要是类簇的关键字抽取不够准确,特征选择尚未考虑,聚类精度需要提高。
以下是现有系统的流程图:明天开始到下周末,研究
1.ka+k-means,其他k-means方法,找出系统不足点
2.研究特征选择方法,提高聚类前数据的质量




posted on 2008-05-09 22:22 fullfocus 阅读(617) 评论(2)  编辑  收藏 所属分类: 聚类算法研究

评论:
# re: focus聚类研究系列一-----熟悉现有项目基础(站在巨人的肩膀上) 2008-08-08 13:32 | zr
请问这是什么系统啊,是对网页的聚类吗  回复  更多评论
  
# re: focus聚类研究系列一-----熟悉现有项目基础(站在巨人的肩膀上)[未登录] 2010-06-10 16:31 | Bill
怎么判断关键词抽取不够精确呢?请楼主说说你的依据  回复  更多评论
  

只有注册用户登录后才能发表评论。


网站导航: