统计类数据挖掘和知识类数据挖掘

6.1 设计数据挖掘模型
6.1.1 数据挖掘方法论
6.1.2 构造和使用数据挖掘模型
6.2 统计类数据挖掘
6.2.1 统计分析类数据挖掘技术
6.2.2 统计分析工具
6.2.3 统计分析工具应用
6.3 知识类数据挖掘
6.3.1 知识发现系统的一般结构
6.3.2 知识发现技术及其运用
6.3.3 知识发现工具
6.4 MDX语言
6.1 设计数据挖掘模型
数据挖掘的基本机制是数据挖掘模型,这是一个抽象的对象,该模型以一系列结构行集存储数据挖掘信息,并可使用各种工具轻松访问数据.构造和使用数据挖掘模型首先必必须创建数据挖掘模型,并可以使用数据挖掘模型测览器以图形格式显示数据挖掘模型的内容.
6.1.1 数据挖掘方法论
1.数据取样(Sample)
2.数据特征探索,分析和预处理(Explore)
3.问题明确化,数据调整和技术选择(Modify)
4.模型的研发及知识的发现(Model)
5.模型和知识的综合解释和评价(Assess)
6.1.2 构造和使用数据挖掘模型
1.创建数据挖掘模型
创建新的数据挖掘模型包括确定模型类型,构建事例集将要使用的模型并选择模型构造新数据挖掘模型所用的数据挖掘技术.
根据要处理的事例集数据的类型,可以使用两种类型的数据挖掘模型:关系数据挖掘模型和OLAP数据模型.前者设计为处理传统的关系数据库表,而后者则设计为处理以多维数据集形式保存的OLAP数据.
2.编辑数据挖掘模型
一般可以通过编辑器来编辑数据挖掘模型.数据挖掘模型的进程取决于挖掘模型的类型.
(1)通过编辑器编辑关系数据挖掘模型
可以使用关系挖掘模型编辑器编辑关系数据挖掘模型的结构,该编辑器也可用来处理数据挖掘模型和查看结果内容,允许更改数据挖掘模型的基本属性(如数据挖掘算法),显示数据挖掘模型列(包括键列,输入列和可预测列).
关系挖掘模型编辑器还可以显示构造事例集的表结构,显示事例和支持表.对于已培训的关系挖掘模型,可以使用数据挖掘模型浏览器,以图形形式显示数据挖掘模型的内容.
(2)通过编辑器编辑OLAP数据挖掘模型
可以使用OLAP挖掘模型编辑器编辑OLAP数据挖掘模型的结构.而且可处理数据挖掘模型并显示结果内容,更改数据挖掘模型的基本属性(如数据挖掘算法)及组成数据挖掘模型事例集的维度,级别和度量值的属性.
如果OLAP数据挖掘模型已经过培训,则该编辑器还可以使用数据挖掘模型浏览器以图形形式显示数据挖掘模型的内容.
3.培训数据挖掘模型
为提供预测性的结果,数据挖掘模型首先必须在称为"培训"的进程中采用已知数据. 在该进程中,数据被插入到未经过培训的数据挖掘模型中.这个进程并不将培训数据保存到数据挖掘模型中,而是通过数据挖掘模型分析培训数据,找出以后可使用的规则和模式,以确定预测列的图值并将统计信息作为数据挖掘模型内容保存.

4.查看数据挖掘模型
查看已培训数据挖掘模型的最简单方法是使用数据挖掘模型浏览器和相关性网络浏览器,这些图形化工具以易于理解的图形界面显示数据挖掘模型的复杂内容(如决策树),并图形化数据挖掘模型的内容.

图形化是指以易十理解的可视化格式显示复杂数据的过程,但在数据挖掘中实现却非常困难.数据挖掘模型浏览器可以简化数据挖掘模型内容的图形化过程,而相关性网络浏览器则可以使决策树数据挖掘模型中复杂关系的图形化变得易于理解.
5.对数据挖掘模型的其他操作
也可以为数据挖掘模型分配安全角色,以将对该模型及其预测能力的访问权限限制为特定用户和组,当数据挖掘模型链接到相应的数据库时,将使用数据库角色决定是否允许访问链接到数据库中的数据挖掘模型,这与在多维数据集中使用数据库角色类似.
6.2 统计类数据挖掘
统计技术是一个有着百余年历史,并有着广泛应用的技术.目前所使用的一些经典数据挖掘技术(如CART和CHAID等)都来自统计技术.在数据挖掘中的概率,独立性,偶然性和过适应性等概念也都来源于统计技术.
6.2.1 统计分析类数据挖掘技术
统计类数据挖掘技术是数据挖掘技术中较为成熟的一种,主要包括数据的聚集与度量技术,各种回归技术,聚类挖掘技术和最近邻域挖掘技术等.
1.数据的聚集与度量
2.各种回归技术
回归又包括线性回归和非线性回归.
3.聚类挖掘技术
(1)聚类分析原理
(2)分层聚类
(3)划分聚类
(4)密度聚类
(5)网格聚类
(6)模型聚类
4.最近邻域数据挖掘
最近邻域数据挖掘工具是数据挖掘技术中最容易理解的技术之一,因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本.
用最近邻域方法进行预测的基本概念是相互之间"接近"的对象具有相似的预测值.如果知道其中一个对象的预测值后,可以预测其最近的邻域对象.
6.2.2 统计分析工具
数据挖掘中的统计分析上具是一种处于知识发现工具和信息处理工具之间的数据挖掘工具.
1.统计类数据挖掘工具的功能
(1)可视化功能
(2)探索功能
(3)统计功能
(4)数据管理功能
(5)显示功能
(6)挖掘结果描述功能
(7)开发工具
(8)可接受的响应时间
2.统计分析类工具的用途
统计类数据挖掘工具可以在时序数据和序列数据的挖掘中发挥重要作用,主要是趋势分析,相似性搜索,与时间有关数据的序列模式挖掘和周期性模式的挖掘.
6.2.3 统计分析工具应用
1.统计分析类工具应用中的问题
(1)空缺值处理
A.忽略元组
B.人工填写空缺值.
C.使用一个全局变量填充空缺值.
(2)噪声数据处理
噪声是一个测量变量中的随机错误或偏差.给定一个数值属性的噪声,可以将其平滑掉或剔除掉噪声.
A.分箱
B.聚类
C.计算机和人工检查结合
D.回归
(3)不一致数据处理
对于有些事务,所记录的数据可能存在不一致性.数据不一致可以使用其他材料人工加以更正,例如数据输入时的错误可以便用纸上的记录加以更正.
2.统计分析遵循的基本原则
统计分析的科学依据在于事物发展的规律性.具体来说,应该遵循以下3个基本原则.
(1)与定性分析相结合原则
(2)连贯和类推原则
(3)统计资料的可靠性和分析公式的适应性原则
3.统计分析的步骤
(1)确定分析目标
(2)收集,审核及分析统计资料
(3)确定分析模型,选择分析方法
(4)进行分析和误差分析
4.统计类数据挖掘的性能问题
统计方法的优点是精确,易理解并臣己经被广泛应用.统计分析是一种有力的技术,用它可以了解客户,市场,产品和其他关键商业参数.但也存在一些问题.
(1)它是劳动力密集的,需要相当一部分统计分析员和商业分析员的分析劳动.
(2)成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识.
(3)许多情况下,商业分析人员并不知道需要查找什么(或无法选择离散的变量分析), 此时,统计分析工具将无法工作.
(4)在进行市场细分时,很难集成和分析非数字化数据,只适合数字化数据处理.
(5)一般来说,统计类数据挖掘工具的应用成本与其可接受的响应时间不好统一.
6.3 知识类数据挖掘
知识类数据挖掘技术就是一种依靠数据驱动的,从数据仓库的数据中挖掘业务模式的知识发现技术.
6.3.1 知识发现系统的一般结构
知识发现系统的结构由知识发现系统管理器,知识库,商业分析员,数据仓库的数据接口,数据选择,知识发现引擎,知识发现评价,知识发现描述等部分组成.见图6-1.
1.知识发现系统管理器
知识发现系统管理器控制并管理整个知识发现过程.商业分析人员的输入和知识库中的信息用于驱动以下三个过程:
(1)数据选择过程.
(2)抽取算法的选择及使用过程.
(3)发现的评价过程.
2.知识库和商业分析员
知识库包含源于各方面的知识.商件分析员将元数据输入数据仓库,描述数据仓库的数据结构,商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段, 分析中用于产生数据需求的商业规则,任何数据层次等).其目的是按一种有效的方式指导对关注性信息的发现.
3.数据仓库的数据库接口
知识发现系统利用数据库的查询机制,从数据仓库中抽取数据.对于关系数据库,可使用SQL查询语言.知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式.
为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信.
4.数据选择
数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构.知识库指导数据选择构件,选择需要抽取的数据以及抽取方式.如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例.此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法.
5.知识发现引擎
知识发现引擎将知识库中的抽取算法提供数据选择构件抽取的数据,其目的是抽取数据元素间的模式和关系.存储在知识库中的经验对发现抽取有重要的作用.
许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖,分类规则,聚类,概括数据,偏差检查,归纳和模糊推理等.
6.发现评价
商业分析员需要寻找关注性的数据模式,以便了解顾客,产品,市场等等.数据仓库潜在地具有宿主模式.评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息.
用于分析关注性模式的技术包括统计的重点,覆盖级别的置信度因子,以及可视化分析.
7.发现描述
发现描述构件提供两种必须的功能.一种是发现评价辅助商业分析员,在知识库中保存关注性的发现结果,以备引用和使用.另一种是保持发现与商业经理(或商业总经理)的通信.其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议.知识发现系统中的描述技术包括可视化导航和浏览,自然语言文本报告以及图表和图形.
6.3.2 知识发现技术及其运用
前面叙述过,数据挖掘中的知识发现技术按照其不同的技术特点,可以分成规则型知识挖掘技术,神经网络型知识挖掘技术,遗传算法型知识挖掘技术和粗糙集型数据挖掘技术.这些不同类型的知识挖掘技术在数据挖掘中占有重要的地位.
1.关联规则应用
关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖掘的各种商业规则在市场竞争中获取优势.
通常,关联规则用于值域的基数很高或有多个二值属性列的数据库.
2.神经元网络的应用
人工种经网络是—种有效的预测模型.其模型比较复杂,许多人都难以理解;但是在聚类分析,奇异点分析,特征抽取中可以得到较大的应用,例如应用在信用卡欺诈,信贷风险, 客户分类,盈利客户特征分析商业模式的识别上.

神经元网络在使用时需要很长的圳练时间,因而对有足够长训练时间的应用更为合适. 此外,神经元网络对噪声数据具有较高的承受能力.
3.遗传算法的应用
遗传算法作为基于生物进化过程的组合优化方法,在数据挖掘中主要用于分类系统中, 并且经常与神经网络等数据挖掘技术综合应用.
神经元网络在客户的分类中的应用是比较成功的.
4.粗糙集理论的应用
粗糙集在数据挖掘应用中,经常用于处理不确定问题,而且在处理过程中可以不需要关于问题的先验知识,可以自动找出问题的内在规律.因此,在模式识别,决策分析,知识发现等方面得到较广泛的应用.
粗糙集在商业应用中也具有很大的应用范围.
6.3.3 知识发现工具
1.知识发现工具系统结构
(1)无耦合
(2)松散耦合
(3)半紧密耦合
(4)紧密耦合
2.知识发现工具运用中的问题
(1)数据挖掘技术应用中的共性问题
在应用数据挖掘技术时,所遇到的共性问题有:数据质量,数据可视化,极大数据库, 性能与成本,分析人员的技能,数据噪声和模式评价等问题.
(2)数据挖掘技术应用中的个性问题
A.规则归纳应用中的问题.
B.神经网络应用中的问题.
神经网络方法也有一些缺点.
第一,神经网络易于受训练过度的影响.
第二,神经网络的训练速度问题.
C.遗传算法应用中的问题.
3.知识发现的价值
(1)了解商业活动
(2)发现商业异常
(3)预测模型
6.4 MDX语言
MDX是一种语法,支持多维对象与数据的定义和操作.它在很多方面与SQL语法相似, 但并不是SQL语言的扩展.事实上,MDX所提供的一些功能也可由SQL提供,尽管不是那么有效或直观.
1.基本MDX
MDX查询的创建者在编写查询前必须确定所请求数据集的结构,基本MDX查询提供如下功能:
A.MDX查询的基本语法信息.
B.成员,元组和集合提供了对成员,元组和集合的简要描述(包括概念性信息及语法); 轴线度和切片器维度描述轴维度和切片器维度及其在带有SELECT和WHERE子句的MDX 查询中的使用.
C.建立多维数据集上下文提供对MDX查询中的FROM子句的用途的描述.

2.对SQL和MDX的比较
尽管SQL和MDX具有相似的语法,但是MDX语法功能异常强大,且可以非常复杂.因为设计MDX的意图就是提供一种查询多维数据的简单而有效的方法,所以它采用了一致且易于理解的方式使用户明确二维查询和多维查询在概念上的区别.
小结
6.1 设计数据挖掘模型
6.2 统计类数据挖掘
6.3 知识类数据挖掘
6.4 MDX语言

posted on 2006-05-05 16:10 吴名居阅读(542) 评论(0) 编辑收藏所属分类: 数据挖掘-weka

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: 统计类数据挖掘和知识类数据挖掘数据挖掘

专注应用，关注发展，开拓创新

公告

常用链接

留言簿(1)

随笔分类

随笔档案

文章分类

文章档案

收藏夹

ERP类

javablogs

java书本

java开源网站

java论坛

开源综合站

软件下载

最新评论

阅读排行榜

评论排行榜