马可波罗的梦乡

BlogJava 首页 新随笔 联系 聚合 管理
  4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks
1、把零散的信息集成到数据仓库中,对决策有巨大的好处。
2、数据清理应该是一个繁琐的过程。即使是数据仓库,也不可能包含所有的数据,如果没有解决问题的全部数据,就需要到外部获取数据,并对这些数据进行清理,同时把这些数据集成到数据仓库中去
3、经常需要对数据进行规格化操作,如使某个属性的值在0-1区间。规格化操作的方法很多,如除以发现的最大数,或求统计均值,方差等。
4、通过使用距离函数,名词值也可以转成成数字。如两个名字相同,则值为0,两个名字不同,则值为1。
5、有时数据本身具备一些源自自身的映射关系,如电话号码前的区号,邮编。学号前几位数字可能代表该学生的入学时间等。
6、现实生活中遇到的大部分数据集,都会包含缺失值,即missing value
7、数据有缺失是很正常的情形。如医学实验,如果动物在实验完成之前就死掉了,有些数据就不能采集到了数据缺失并不一定使用问号表示,也可以用超出正常值的一些特定值来表示,如使用负数和零等。即使同样是缺失值,也可以有多种原因,可以使用不同的负值表示。。。
8、
posted on 2009-10-19 13:44 梦回唐朝 阅读(97) 评论(0)  编辑  收藏 所属分类: weka

只有注册用户登录后才能发表评论。


网站导航: