随笔-28  评论-32  文章-10  trackbacks-0
  2008年5月9日
     摘要: 从现在开始,开始我真正的研究计划:聚类获取有价值的信息。
今天开始详细了解了已有的资源和项目代码,包含中文分词,文档向量化,现有的KA+K-MEANS聚类算法。但是据观察,聚类效果上不是很满意,主要是类簇的关键字抽取不够准确,特征选择尚未考虑,聚类精度需要提高。
以下是现有系统的流程图:明天开始到下周末,研究
1.ka+k-means,其他k-means方法,找出系统不足点
2.研究特征选择方法,提高聚类前数据的质量  阅读全文
posted @ 2008-05-09 22:22 fullfocus 阅读(76) | 评论 (0)编辑 收藏