无为

无为则可为，无为则至深！

语源科技BlogJava :: 首页 :: 联系 :: 聚合

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

数据挖掘之关联规则

关联规则简介：

关联规则虽然来源于

POS 中，但是可以应用于很多领域。只要一个客户在同一个时间里买了多样东西，或者在一段时间了做了好几样事情就可能是一个潜在的应用。例如：

用信用卡购物，如汽车租金和旅馆费，可以看他下一个要买的东西。
电话公司提供的多项服务，以研究捆绑销售的问题。
银行提供的多项服务，来分析客户可能需要那些服务。
不寻常的多项保险申请可能是欺诈行为。

数据挖掘什么时候有用？三种规则：有用的、价值不高的、费解的。价值不高的规则往往是对一些商业领域内的规则重现。费解的规则往往是数据中一些偶然的东西，从而也没有什么采取行动的价值。

虚拟元素（

Virtual Items ）是一个在事务中认为加入的元素。用来对事务进行一定的区别。加入虚拟元素后我们能做的事情：

对比促销时和平常销售时的区别。
按照销售的区域来看，按照销售的方式来看。
比较城市和郊区的区别。
比较各个季节的不同。

数据挖掘的基本流程：

选择合适的元素。考虑不同的统计级别，选择哪种细节程度。细节的颗粒越粗，那么算法的工作量就越小；细节的颗粒越细，那么结果的可实施性就越好。关键：只有当数据中的元素出现的次数大致相同是，关联规则的效果才最好。虚拟元素不能太多！应该注意数据的质量。

产生规则。什么是规则？就是一个条件和一个结果的和：

If condition then result 。实际中有用的往往是结果中只有一个元素的情况。支持度、可信度和提高率（兴趣度）。

元组	出现频率
A	45%
B	42.5%
C	40%
A和B	25%
A和C	20%
B和C	15%
A和B和C	5%

支持度：就是一个元组在整个数据库中出现的概率。如上面的例子中

S(A)=0.45 。

可信度：它是针对规则而言的。对于一般的规则，它的可信度

=p （ condition and result ） /p （ condition ）。例如有如下规则： If B and C then A 。则它的可信度是： p （ B and C and A ） /p （ B and C ） =5%/15%=0.33 。

提高率（或者叫兴趣度）：对于上面的一个规则，我们可以发现，当我们从从数据库中直接取

A 的时候，概率是 45% ；可在我们的规则中，取到 A 的概率却只有 33.3% 。显然，这种情况是我们不愿意见到的，我们应该略去这样的一些规则。所以我们引入了兴趣度的概念，具体的公式如下：兴趣度 =p(condition and result)/p(condition)*p(result) 。当兴趣度大于 1 的时候，这条规则就是比较好的；当兴趣度小于 1 的时候，这条规则就是没有很大意义的。兴趣度越大，规则的实际意义就越好。

克服实际应用中数据量暴大的问题。当数据量增大时，要考虑的元素组就增长的很快了。

分裂规则：例如：If A and not B then C。

用关联规则的方法对序列规则的分析：

为了进行序列模式的分析，事务数据要满足额外的两个条件：

一个时标或者序列信息用以决定事务发生的顺序。
标识信息，用以区别不同的事务。

可以用于原因结果分析。

关联规则的优缺点：

优点：

它可以产生清晰有用的结果。
它支持间接数据挖掘。
可以处理变长的数据。
它的计算的消耗量是可以预见的。

缺点：

当问题变大时，计算量增长得厉害。
难以决定正确的数据。
容易忽略稀有的数据。

凡是有该标志的文章，都是该blog博主Caoer（草儿）原创，凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-10 14:05 草儿阅读(271) 评论(0) 编辑收藏所属分类: BI and DM

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos开发心得 WEB数据仓库系统层次结构轻量级数据仓库移动电信数据仓库设计六环节数据挖掘--极具发展前景的新领域智能学习资源最佳JAVA BI工具专家观点：数据挖掘的本质

无为

公告

随笔分类(222)

随笔档案(188)

相册

收藏夹(6)

AJAX

DB BI DM

ＪＡＶＡ编程论坛

ＵＭＬ技术论坛

搜索

积分与排名

最新评论

阅读排行榜