Change Dir

先知cd——热爱生活是一切艺术的开始

统计

留言簿(18)

积分与排名

“牛”们的博客

各个公司技术

我的链接

淘宝技术

阅读排行榜

评论排行榜

01 2011 档案

bye~~2010

posted @ 2011-01-02 17:51 changedi 阅读(296) | 评论 (0)  编辑

Commons Math学习笔记——聚类和回归
     摘要: 聚类可以见我以前写过的聚类分析的文章。

回归是一个统计中非常重要的概念了。在Commons Math库中有一个regression的子包转么实现了线性回归的一些基本类型。在regression包中,有个基本接口就是MultipleLinearRegression,这个接口表达y=X*b+u这样的基本线性回归式。线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。简单看这个公式,y代表了一个n维的列向量(回归子),X代表了[n,k]大小的观测值矩阵(回归量),b是k维的回归参数,u是一个n维的剩余误差。回归分析干什么用的?具体讲就是预测。我们在数据挖掘中定义,定性的分析叫做分类,而定量的分析叫做回归。回归就是根据已有的观察值去预测未来的一个定量的指标。记得前一段阿里云到学院来做技术交流,讲到阿里和淘宝通过数据分析对中国商品交易(还是具体什么贸易,忘记了,尴尬)的预测就是工程师做的一个简单的线性回归分析,模型虽然简单,但是后来与实际数据一比较,预测值与实际值的曲线基本吻合。

  阅读全文

posted @ 2011-01-01 18:35 changedi 阅读(6317) | 评论 (0)  编辑

Commons Math学习笔记——随机生成和统计初步
     摘要: 概率统计最基本的前提就是有数据,而我们做模拟或者测试时总会用到大量的随机数据。我们知道绝对的随机是做不到的,但是可以利用算法来实现伪随机数的生成。Commons Math库提供了一个random的包,其中定义实现了很多可以用来生成随机数的类和接口。random包中定义了5个接口,分别是EmpiricalDistribution、NormalizedRandomGenerator、RandomData、RandomGenerator和RandomVectorGenerator。  阅读全文

posted @ 2011-01-01 18:30 changedi 阅读(3271) | 评论 (0)  编辑