无为

无为则可为，无为则至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

Visualizing Clustering 是指将数据作某种处理之后，作出的图像可以由人直接分辨出分类模式。

最最简单的方法，就是对原始数据直接画出直方图(histograms)，当然只适用于单变量和两变量的情况。有时直接做直方图并不能达到要求（其实大部分时候都这样），对这个方法的修正是使用核密度估算来取代原始的密度估算方法（即落到某特征数值区间的事例个数）。核密度估算使用核函数计算各个事例对特性空间里各个点的贡献加和，然后使用此加和作图。对于一维的情况常用的核函数是：矩形，三角形和高斯函数。特性空间上各点的密度值是:

f(x)=frac{1}{nh} sum_{i=1}^{n}K(frac{x-X_i}{h})

而对于二维的情况上面的公式则变成:

f(x)=frac{1}{nh_xh_y}sum_{i=1}{n}K(frac{x-X_i}{h_x},frac{y-Y_i}{h_y})

而对于二维以上的情况，就不能直接使用直方图的方法了。简单的，可以使用散点图（scatterplot），即把没两个变量组成一对，然后分别画出它们的分布图。大多数情况这种做法根本起不到效果，你看到的是一对乱七八糟没有明显结构信息的图表。所以替代方法出现了。概括的说，就是“降维”。principal components analysis(PCA) 方法是以产生一组相互之间无关而又能尽量保持各数据点的偏差值的新变量。然后从中取出比较重要的前几个。以这些变量作散点图。这方面我还没弄清楚，实际操作一次可能会好一些。

PCA的更一般的方法是projection pursuit，因为实际上PCA就是一种通过投影降维的方法。Projection Pursuit一般需要将原始的p维数据投影到一维或二维空间里。如果要投影到一维上去，那么需要找出一个适合的投影向量，如果是二维，则需要一个投影平面。衡量投影的效果，需要一个索引函数(index function) ，在PCA里使用的是样本的偏差。选定索引函数后，接下来要做的就是如何选定合适的投影向量（平面）而使索引函数达到最优（大／小）。所以实际的聚类效果取决于：1.索引函数的选择；2.优化算法。

最后一种方法是multidimensional scaling（MDS，多维度的缩放），狭义的定义是寻找低维空间，在该空间里的点一一对应于原始的数据点，而各点之间的距离（一般用欧氏距离），尽量跟原空间里各点间的相异程度一致。适用于原始数据的距离矩阵已知的情况下。对这个方法的具体实现我同样不理解。如何构建低维空间的坐标系呢？难道是根据相互间的距离一个点一个点的画到低维空间里？

凡是有该标志的文章，都是该blog博主Caoer（草儿）原创，凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-24 13:52 草儿阅读(408) 评论(0) 编辑收藏所属分类: BI and DM

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园 IT新闻 Chat2DB C++博客博问管理
相关文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos开发心得 WEB数据仓库系统层次结构轻量级数据仓库移动电信数据仓库设计六环节数据挖掘--极具发展前景的新领域智能学习资源最佳JAVA BI工具专家观点：数据挖掘的本质

无为

公告

随笔分类(222)

随笔档案(188)

相册

收藏夹(6)

AJAX

DB BI DM

ＪＡＶＡ编程论坛

ＵＭＬ技术论坛

搜索

积分与排名

最新评论

阅读排行榜