﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>BlogJava-马可波罗的梦乡-文章分类-weka</title><link>http://www.blogjava.net/thinke365/category/42197.html</link><description /><language>zh-cn</language><lastBuildDate>Sat, 24 Oct 2009 01:30:54 GMT</lastBuildDate><pubDate>Sat, 24 Oct 2009 01:30:54 GMT</pubDate><ttl>60</ttl><item><title>DM Stories</title><link>http://www.blogjava.net/thinke365/articles/298840.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Mon, 19 Oct 2009 06:04:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/298840.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/298840.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/298840.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/298840.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/298840.html</trackback:ping><description><![CDATA[1、出售奶牛。挤奶器会记录奶牛的牛奶产量，1record/2day。可以根据统计规律，出售那些牛奶产量相对不高的奶牛。<span style="font-size: 10pt; color: #0000ff">挺有趣，有什么模型解决这种问题最合适呢</span>?<br />
2、天气预测，根据其他属性来预测天气中的另外一个属性。<br />
<br />
<br />
<img src ="http://www.blogjava.net/thinke365/aggbug/298840.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-10-19 14:04 <a href="http://www.blogjava.net/thinke365/articles/298840.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>DM Concept</title><link>http://www.blogjava.net/thinke365/articles/298835.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Mon, 19 Oct 2009 05:44:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/298835.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/298835.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/298835.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/298835.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/298835.html</trackback:ping><description><![CDATA[1、把零散的信息集成到数据仓库中，对决策有巨大的好处。<br />
2、数据清理应该是一个繁琐的过程。即使是数据仓库，也不可能包含所有的数据，如果没有解决问题的全部数据，<span style="font-size: 10pt; color: #0000ff">就需要到外部获取数据，并对这些数据进行清理，同时把这些数据集成到数据仓库中去</span>。<br />
3、经常需要<span style="font-size: 10pt; color: #0000ff">对数据进行规格化操作</span>，如使某个属性的值在0-1区间。规格化操作的方法很多，如除以发现的最大数，或求统计均值，方差等。<br />
4、通过使用<span style="font-size: 10pt; color: #ff0000">距离函数</span>，名词值也可以转成成数字。如两个名字相同，则值为0，两个名字不同，则值为1。<br />
5、<span style="font-size: 10pt; color: #800080">有时数据本身具备一些源自自身的映射关系</span>，如电话号码前的区号，邮编。学号前几位数字可能代表该学生的入学时间等。<br />
6、现实生活中遇到的大部分数据集，<span style="font-size: 10pt; color: #0000ff">都会包含缺失值，即missing value</span>。<br />
7、<span style="font-size: 10pt; color: red">数据有缺失是很正常的情形</span>。如医学实验，<span style="font-size: 10pt; color: #666699">如果动物在实验完成之前就死掉了，有些数据就不能采集到了</span>。<span style="color: red"><strong style="font-size: 10pt">数据缺失并不一定使用问号表示</strong></span>，也可以用超出正常值的一些特定值来表示，如使用负数和零等。即使同样是缺失值，也可以有多种原因，可以使用不同的负值表示。。。<br />
8、
<img src ="http://www.blogjava.net/thinke365/aggbug/298835.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-10-19 13:44 <a href="http://www.blogjava.net/thinke365/articles/298835.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Weka Concept</title><link>http://www.blogjava.net/thinke365/articles/298557.html</link><dc:creator>梦回唐朝</dc:creator><author>梦回唐朝</author><pubDate>Fri, 16 Oct 2009 05:41:00 GMT</pubDate><guid>http://www.blogjava.net/thinke365/articles/298557.html</guid><wfw:comment>http://www.blogjava.net/thinke365/comments/298557.html</wfw:comment><comments>http://www.blogjava.net/thinke365/articles/298557.html#Feedback</comments><slash:comments>0</slash:comments><wfw:commentRss>http://www.blogjava.net/thinke365/comments/commentRss/298557.html</wfw:commentRss><trackback:ping>http://www.blogjava.net/thinke365/services/trackbacks/298557.html</trackback:ping><description><![CDATA[<p>1、Weka中所有的学习算法都继承自weka.classifiers.Classifier。基本分类器十分简单，一个程序用于<span style="font-size: 10pt; color: #0000ff">从训练数据创建分类器</span>，另一个程序则<span style="font-size: 10pt; color: #0000ff">通过未知数据来验证生成模型，<span style="font-size: 10pt">或者为所有的类生成概率分布</span></span>。<br />
2、数据串行化需要实现Serializable接口，可以把对象串行化到持久存储中，还没怎么用过，除了做Eclipse插件时修改过。存储时，还可以选择压缩存储。<br />
3、把所有的数据放在Instance中。weka有Instance类，里面还有各种Attribute。有点像Lucene的Document类可以有多个Field一样。<br />
4、ARFF是表达<span style="font-size: 10pt; color: #0000ff">包含相互独立、没有次序关系数据实例</span>数据集的一种标准方式。(<span style="font-size: 10pt; color: #800080">在Weka中应该是大量使用这种数据格式</span>)。ARFF文件<span style="font-size: 10pt; color: red">只给出dataset</span>，并没有说明需要通过哪些属性预测另外哪个属性。这说明，<span style="font-size: 10pt; color: #0000ff">通过同一个文件，可以研究哪些属性可以较好地预测另外一个属性，也可以研究关联规则，或进行聚类操作</span>。<br />
<span style="font-size: 10pt; color: red">@data 表示要开始给出数据集的数据实例了</span>。<br />
数据实例中，值通过逗号进行分隔。<span style="font-size: 10pt; color: #0000ff">如果某个值是缺失的，则用一个问号表示</span>。<br />
ARFF允许使用两种类型的数据，分别是<span style="font-size: 10pt; color: red">名词和数值类型</span>。</p>
5、
<img src ="http://www.blogjava.net/thinke365/aggbug/298557.html" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://www.blogjava.net/thinke365/" target="_blank">梦回唐朝</a> 2009-10-16 13:41 <a href="http://www.blogjava.net/thinke365/articles/298557.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>