马可波罗的梦乡

语源科技BlogJava

首页

新随笔

联系

聚合

管理

4 Posts :: 50 Stories :: 2 Comments :: 0 Trackbacks

Weka Concept

1、Weka中所有的学习算法都继承自weka.classifiers.Classifier。基本分类器十分简单，一个程序用于从训练数据创建分类器，另一个程序则通过未知数据来验证生成模型，或者为所有的类生成概率分布。
2、数据串行化需要实现Serializable接口，可以把对象串行化到持久存储中，还没怎么用过，除了做Eclipse插件时修改过。存储时，还可以选择压缩存储。
3、把所有的数据放在Instance中。weka有Instance类，里面还有各种Attribute。有点像Lucene的Document类可以有多个Field一样。
4、ARFF是表达包含相互独立、没有次序关系数据实例数据集的一种标准方式。(在Weka中应该是大量使用这种数据格式)。ARFF文件只给出dataset，并没有说明需要通过哪些属性预测另外哪个属性。这说明，通过同一个文件，可以研究哪些属性可以较好地预测另外一个属性，也可以研究关联规则，或进行聚类操作。
@data 表示要开始给出数据集的数据实例了。
数据实例中，值通过逗号进行分隔。如果某个值是缺失的，则用一个问号表示。
ARFF允许使用两种类型的数据，分别是名词和数值类型。

5、

posted on 2009-10-16 13:41 梦回唐朝阅读(214) 评论(0) 编辑收藏所属分类: weka

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: DM Stories DM Concept Weka Concept

马可波罗的梦乡

常用链接

留言簿

随笔分类

随笔档案

文章分类

文章档案

Friends

Hand

Tech

搜索

最新评论

阅读排行榜

评论排行榜