BlogJava-huqingcheng-文章分类-DM

Fp-tree 算法引

披着狼皮的羊 — Sun, 10 Oct 2010 11:19:00 GMT

http://hi.baidu.com/zhengjiong/home

Fp-tree 算法

2008年10月16日星期四下午 04:41

Keywords: 数据挖掘,关联规则挖掘
Goal: 寻找频繁项目集
频繁项目集: 例,对于项目集L和事务数据库D,所有满足用户指定的最小支持度的项目集.
最大频繁项目集: 在频繁项目集中所有不被其他元素包含的频繁项目集.
支持度: L1属于L,L1在事务数据库D所占的百分比

例子:
用户指定支持度为2
有下面的项目集:

A出现的次数有3次,大于2,属于频繁项目集.
AB出现次数也是3次,大于2,也属于频繁项目集.
所有项目集按照规则就是:{A,B,C,D,E,AB,AC,AD,BC,BD,BE,CD,CE,ABC,ABD,ACD,BCE,ABCD}
按照最大频繁项目集的定义,ABCD,BCE都没有被其他元素包含,所以最大频繁项目集为{ABCD,BCE}.
ABC被ABCD包含,所以它并不是最大频繁项目集.
频繁项目集是形成关联规则的基础,所以采用最优的算法来构造频繁项目集是主要的工作.

所以引入了一种FP-tree算法:
2000年,HAN提出了一个称为FP-tree的算法.该算法只进行2次数据库扫描.它直接压缩数据库成一个频繁模式树,作后通过这课树生成关联规则.
算法关键步骤:第一步是利用事物数据库中的数据构造FP-tree;第二步是从FP_tree中挖掘频繁模式.
仅通过案例来说明如何构造:
最小支持度取3

构造如下:
(1) 第一次扫描原始项目集,得到1-频项目集{f4,c4,a4,b3,m3,o3,p3}(数字表示其出现个数,不满足大于等于3的被排除)
(2) 创建ROOT节点,第二次扫描项目集,得到每个原始项目集中的满足支持度的分枝,例:1号项目集满足支持度的元素有f,c,a,m,p;2号项目集中满足支持度的元素有f,c,a,b,o等等,把他们都看做是树的分枝;
将整理后项目集中的元素构造为如下树

字母后面数字表示在公共前缀出现次数.根据该树可以回溯最低节点,找到对应节点的频繁模式:例,对于p来说,有三个回溯路径:{f,c,a,m,p}{f,c,a,o,p}{f,b,m,p} -- 这三个为p的条件模式基,因为这三个条件只包含一个频度节点,所以产生的频度模式为cp:3
下图表示挖掘过程

这就是基本的FP-tree过程.对于恶意软件分类采用数据挖掘的方法还是可行的,希望在能尽管找到数据挖掘与恶意软件分类的具体实施过程.

披着狼皮的羊 2010-10-10 19:19 发表评论

关联规则(apriori algorithm)

披着狼皮的羊 — Sun, 10 Oct 2010 11:09:00 GMT

摘要: http://www.cnblogs.com/zgw21cn/ (DM) 关联规则(apriori algorithm)(1) 关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物蓝分析 (market basket analysis)。例如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。关... 阅读全文

披着狼皮的羊 2010-10-10 19:09 发表评论

数据挖掘算法-Apriori Algorithm（关联规则）--引

披着狼皮的羊 — Sun, 10 Oct 2010 10:32:00 GMT

数据挖掘算法-Apriori Algorithm（关联规则）

　　本人刚开始学数据挖掘，虽然之前看过一本《数据挖掘原理与应用：SQL Server 2005数据库》，但是只是大体上了解了一些数据挖掘的概念，并没有深入去了解一个算法。前段时间开始比较深入的学习，就以关联规则作为学习的入口点。这才有了这篇文章。

　　Apriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系，也被称为购物蓝分析 (Market Basket analysis)，因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。

　　关于这个算法有一个非常有名的故事："尿布和啤酒"。故事是这样的：美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布，而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒，因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的销量双双增加，并一直为众商家所津津乐道。

【1】一些概念和定义

资料库（Transaction Database）：存储着二维结构的记录集。定义为：D
所有项集（Items）：所有项目的集合。定义为：I。
记录（Transaction ）：在资料库里的一笔记录。定义为：T，T ∈ D
项集（Itemset）：同时出现的项的集合。定义为：k-itemset（k项集），k-itemset ? T。除非特别说明，否则下文出现的k均表示项数。
支持度（Support）：定义为 supp(X) = occur(X) / count(D) = P(X)。

   1. 解释一：比如选秀比赛，那个支持和这个有点类似，那么多人（资料库），其中有多少人是选择（支持）你的，那个就是支持度；
   2. 解释二：在100个人去超市买东西的，其中买苹果的有9个人，那就是说苹果在这里的支持度是 9，9/100；
   3. 解释三：P(X)，意思是事件X出现的概率；
   4. 解释四：关联规则当中是有绝对支持度（个数）和相对支持度（百分比）之分的。

置信度（Confidence/Strength）：定义为 conf(X->Y) = supp(X ∪ Y) / supp(X) = P(Y|X)。

在历史数据中，已经买了某某（例如：A、B）的支持度和经过挖掘的某规则（例如：A=>B）中A的支持度的比例，也就是说买了A和B的人和已经买了 A的人的比例，这就是对A推荐B的置信度（A=>B的置信度）< /span>

候选集（Candidate itemset）：通过向下合并得出的项集。定义为C[k]。
频繁集（Frequent itemset）：支持度大于等于特定的最小支持度（Minimum Support/minsup）的项集。表示为L[k]。注意，频繁集的子集一定是频繁集。
提升比率（提升度Lift）：lift(X -> Y) = lift(Y -> X) = conf(X -> Y)/supp(Y) = conf(Y -> X)/supp(X) = P(X and Y)/(P(X)P(Y))

经过关联规则分析后，针对某些人推销（根据某规则）比盲目推销（一般来说是整个数据）的比率，这个比率越高越好，我们称这个规则为强规则；