BlogJava-专注应用，关注发展，开拓创新-文章分类-数据挖掘-weka

统计类数据挖掘和知识类数据挖掘

吴名居 — Fri, 05 May 2006 08:10:00 GMT

6.1 设计数据挖掘模型
6.1.1 数据挖掘方法论
6.1.2 构造和使用数据挖掘模型
6.2 统计类数据挖掘
6.2.1 统计分析类数据挖掘技术
6.2.2 统计分析工具
6.2.3 统计分析工具应用
6.3 知识类数据挖掘
6.3.1 知识发现系统的一般结构
6.3.2 知识发现技术及其运用
6.3.3 知识发现工具
6.4 MDX语言
6.1 设计数据挖掘模型
数据挖掘的基本机制是数据挖掘模型,这是一个抽象的对象,该模型以一系列结构行集存储数据挖掘信息,并可使用各种工具轻松访问数据.构造和使用数据挖掘模型首先必必须创建数据挖掘模型,并可以使用数据挖掘模型测览器以图形格式显示数据挖掘模型的内容.
6.1.1 数据挖掘方法论
1.数据取样(Sample)
2.数据特征探索,分析和预处理(Explore)
3.问题明确化,数据调整和技术选择(Modify)
4.模型的研发及知识的发现(Model)
5.模型和知识的综合解释和评价(Assess)
6.1.2 构造和使用数据挖掘模型
1.创建数据挖掘模型
创建新的数据挖掘模型包括确定模型类型,构建事例集将要使用的模型并选择模型构造新数据挖掘模型所用的数据挖掘技术.
根据要处理的事例集数据的类型,可以使用两种类型的数据挖掘模型:关系数据挖掘模型和OLAP数据模型.前者设计为处理传统的关系数据库表,而后者则设计为处理以多维数据集形式保存的OLAP数据.
2.编辑数据挖掘模型
一般可以通过编辑器来编辑数据挖掘模型.数据挖掘模型的进程取决于挖掘模型的类型.
(1)通过编辑器编辑关系数据挖掘模型
可以使用关系挖掘模型编辑器编辑关系数据挖掘模型的结构,该编辑器也可用来处理数据挖掘模型和查看结果内容,允许更改数据挖掘模型的基本属性(如数据挖掘算法),显示数据挖掘模型列(包括键列,输入列和可预测列).
关系挖掘模型编辑器还可以显示构造事例集的表结构,显示事例和支持表.对于已培训的关系挖掘模型,可以使用数据挖掘模型浏览器,以图形形式显示数据挖掘模型的内容.
(2)通过编辑器编辑OLAP数据挖掘模型
可以使用OLAP挖掘模型编辑器编辑OLAP数据挖掘模型的结构.而且可处理数据挖掘模型并显示结果内容,更改数据挖掘模型的基本属性(如数据挖掘算法)及组成数据挖掘模型事例集的维度,级别和度量值的属性.
如果OLAP数据挖掘模型已经过培训,则该编辑器还可以使用数据挖掘模型浏览器以图形形式显示数据挖掘模型的内容.
3.培训数据挖掘模型
为提供预测性的结果,数据挖掘模型首先必须在称为"培训"的进程中采用已知数据. 在该进程中,数据被插入到未经过培训的数据挖掘模型中.这个进程并不将培训数据保存到数据挖掘模型中,而是通过数据挖掘模型分析培训数据,找出以后可使用的规则和模式,以确定预测列的图值并将统计信息作为数据挖掘模型内容保存.

4.查看数据挖掘模型
查看已培训数据挖掘模型的最简单方法是使用数据挖掘模型浏览器和相关性网络浏览器,这些图形化工具以易于理解的图形界面显示数据挖掘模型的复杂内容(如决策树),并图形化数据挖掘模型的内容.

图形化是指以易十理解的可视化格式显示复杂数据的过程,但在数据挖掘中实现却非常困难.数据挖掘模型浏览器可以简化数据挖掘模型内容的图形化过程,而相关性网络浏览器则可以使决策树数据挖掘模型中复杂关系的图形化变得易于理解.
5.对数据挖掘模型的其他操作
也可以为数据挖掘模型分配安全角色,以将对该模型及其预测能力的访问权限限制为特定用户和组,当数据挖掘模型链接到相应的数据库时,将使用数据库角色决定是否允许访问链接到数据库中的数据挖掘模型,这与在多维数据集中使用数据库角色类似.
6.2 统计类数据挖掘
统计技术是一个有着百余年历史,并有着广泛应用的技术.目前所使用的一些经典数据挖掘技术(如CART和CHAID等)都来自统计技术.在数据挖掘中的概率,独立性,偶然性和过适应性等概念也都来源于统计技术.
6.2.1 统计分析类数据挖掘技术
统计类数据挖掘技术是数据挖掘技术中较为成熟的一种,主要包括数据的聚集与度量技术,各种回归技术,聚类挖掘技术和最近邻域挖掘技术等.
1.数据的聚集与度量
2.各种回归技术
回归又包括线性回归和非线性回归.
3.聚类挖掘技术
(1)聚类分析原理
(2)分层聚类
(3)划分聚类
(4)密度聚类
(5)网格聚类
(6)模型聚类
4.最近邻域数据挖掘
最近邻域数据挖掘工具是数据挖掘技术中最容易理解的技术之一,因为它用与人们思维方式相似的方法进行分析——检测最接近的匹配样本.
用最近邻域方法进行预测的基本概念是相互之间"接近"的对象具有相似的预测值.如果知道其中一个对象的预测值后,可以预测其最近的邻域对象.
6.2.2 统计分析工具
数据挖掘中的统计分析上具是一种处于知识发现工具和信息处理工具之间的数据挖掘工具.
1.统计类数据挖掘工具的功能
(1)可视化功能
(2)探索功能
(3)统计功能
(4)数据管理功能
(5)显示功能
(6)挖掘结果描述功能
(7)开发工具
(8)可接受的响应时间
2.统计分析类工具的用途
统计类数据挖掘工具可以在时序数据和序列数据的挖掘中发挥重要作用,主要是趋势分析,相似性搜索,与时间有关数据的序列模式挖掘和周期性模式的挖掘.
6.2.3 统计分析工具应用
1.统计分析类工具应用中的问题
(1)空缺值处理
A.忽略元组
B.人工填写空缺值.
C.使用一个全局变量填充空缺值.
(2)噪声数据处理
噪声是一个测量变量中的随机错误或偏差.给定一个数值属性的噪声,可以将其平滑掉或剔除掉噪声.
A.分箱
B.聚类
C.计算机和人工检查结合
D.回归
(3)不一致数据处理
对于有些事务,所记录的数据可能存在不一致性.数据不一致可以使用其他材料人工加以更正,例如数据输入时的错误可以便用纸上的记录加以更正.
2.统计分析遵循的基本原则
统计分析的科学依据在于事物发展的规律性.具体来说,应该遵循以下3个基本原则.
(1)与定性分析相结合原则
(2)连贯和类推原则
(3)统计资料的可靠性和分析公式的适应性原则
3.统计分析的步骤
(1)确定分析目标
(2)收集,审核及分析统计资料
(3)确定分析模型,选择分析方法
(4)进行分析和误差分析
4.统计类数据挖掘的性能问题
统计方法的优点是精确,易理解并臣己经被广泛应用.统计分析是一种有力的技术,用它可以了解客户,市场,产品和其他关键商业参数.但也存在一些问题.
(1)它是劳动力密集的,需要相当一部分统计分析员和商业分析员的分析劳动.
(2)成功的可能性很大程度上依赖于商业分析员解决问题的能力,不能自行查找隐藏在数据背后的知识.
(3)许多情况下,商业分析人员并不知道需要查找什么(或无法选择离散的变量分析), 此时,统计分析工具将无法工作.
(4)在进行市场细分时,很难集成和分析非数字化数据,只适合数字化数据处理.
(5)一般来说,统计类数据挖掘工具的应用成本与其可接受的响应时间不好统一.
6.3 知识类数据挖掘
知识类数据挖掘技术就是一种依靠数据驱动的,从数据仓库的数据中挖掘业务模式的知识发现技术.
6.3.1 知识发现系统的一般结构
知识发现系统的结构由知识发现系统管理器,知识库,商业分析员,数据仓库的数据接口,数据选择,知识发现引擎,知识发现评价,知识发现描述等部分组成.见图6-1.
1.知识发现系统管理器
知识发现系统管理器控制并管理整个知识发现过程.商业分析人员的输入和知识库中的信息用于驱动以下三个过程:
(1)数据选择过程.
(2)抽取算法的选择及使用过程.
(3)发现的评价过程.
2.知识库和商业分析员
知识库包含源于各方面的知识.商件分析员将元数据输入数据仓库,描述数据仓库的数据结构,商业分析员还要在知识库中输入其他相关的数据知识(如应当注意的关键数据字段, 分析中用于产生数据需求的商业规则,任何数据层次等).其目的是按一种有效的方式指导对关注性信息的发现.
3.数据仓库的数据库接口
知识发现系统利用数据库的查询机制,从数据仓库中抽取数据.对于关系数据库,可使用SQL查询语言.知识库中的数据仓库元数据指导数据库接口正确组织数据结构,并正确组织数据结构在数据仓库中存储的方式.
为了提高效率,知识发现系统的数据库接口可以直接与数据仓库通信.
4.数据选择
数据选择构件可以确定从数据仓库中需要抽取的数据及数据结构.知识库指导数据选择构件,选择需要抽取的数据以及抽取方式.如果只需示例数据,数据选择构件必须有能力选择并抽取恰当的随机事例.此外,它还要选择算法所需要的数据类型,同时将数据类型输入算法.
5.知识发现引擎
知识发现引擎将知识库中的抽取算法提供数据选择构件抽取的数据,其目的是抽取数据元素间的模式和关系.存储在知识库中的经验对发现抽取有重要的作用.
许多数据挖掘算法可与知识发现系统结合,作为知识发现引擎,如数据依赖,分类规则,聚类,概括数据,偏差检查,归纳和模糊推理等.
6.发现评价
商业分析员需要寻找关注性的数据模式,以便了解顾客,产品,市场等等.数据仓库潜在地具有宿主模式.评价构件或过滤构件有助于商业分析员筛选模式,选出关注性的信息.
用于分析关注性模式的技术包括统计的重点,覆盖级别的置信度因子,以及可视化分析.
7.发现描述
发现描述构件提供两种必须的功能.一种是发现评价辅助商业分析员,在知识库中保存关注性的发现结果,以备引用和使用.另一种是保持发现与商业经理(或商业总经理)的通信.其目的是利用知识发现来理解业务模式,将此理解转化成可执行的建议.知识发现系统中的描述技术包括可视化导航和浏览,自然语言文本报告以及图表和图形.
6.3.2 知识发现技术及其运用
前面叙述过,数据挖掘中的知识发现技术按照其不同的技术特点,可以分成规则型知识挖掘技术,神经网络型知识挖掘技术,遗传算法型知识挖掘技术和粗糙集型数据挖掘技术.这些不同类型的知识挖掘技术在数据挖掘中占有重要的地位.
1.关联规则应用
关联规则是知识挖掘中一种主要的挖掘技术,通过关联规则在数据仓库中的应用,可使人们了解各种事物发生的前因后果,使企业利用挖掘的各种商业规则在市场竞争中获取优势.
通常,关联规则用于值域的基数很高或有多个二值属性列的数据库.
2.神经元网络的应用
人工种经网络是—种有效的预测模型.其模型比较复杂,许多人都难以理解;但是在聚类分析,奇异点分析,特征抽取中可以得到较大的应用,例如应用在信用卡欺诈,信贷风险, 客户分类,盈利客户特征分析商业模式的识别上.

神经元网络在使用时需要很长的圳练时间,因而对有足够长训练时间的应用更为合适. 此外,神经元网络对噪声数据具有较高的承受能力.
3.遗传算法的应用
遗传算法作为基于生物进化过程的组合优化方法,在数据挖掘中主要用于分类系统中, 并且经常与神经网络等数据挖掘技术综合应用.
神经元网络在客户的分类中的应用是比较成功的.
4.粗糙集理论的应用
粗糙集在数据挖掘应用中,经常用于处理不确定问题,而且在处理过程中可以不需要关于问题的先验知识,可以自动找出问题的内在规律.因此,在模式识别,决策分析,知识发现等方面得到较广泛的应用.
粗糙集在商业应用中也具有很大的应用范围.
6.3.3 知识发现工具
1.知识发现工具系统结构
(1)无耦合
(2)松散耦合
(3)半紧密耦合
(4)紧密耦合
2.知识发现工具运用中的问题
(1)数据挖掘技术应用中的共性问题
在应用数据挖掘技术时,所遇到的共性问题有:数据质量,数据可视化,极大数据库, 性能与成本,分析人员的技能,数据噪声和模式评价等问题.
(2)数据挖掘技术应用中的个性问题
A.规则归纳应用中的问题.
B.神经网络应用中的问题.
神经网络方法也有一些缺点.
第一,神经网络易于受训练过度的影响.
第二,神经网络的训练速度问题.
C.遗传算法应用中的问题.
3.知识发现的价值
(1)了解商业活动
(2)发现商业异常
(3)预测模型
6.4 MDX语言
MDX是一种语法,支持多维对象与数据的定义和操作.它在很多方面与SQL语法相似, 但并不是SQL语言的扩展.事实上,MDX所提供的一些功能也可由SQL提供,尽管不是那么有效或直观.
1.基本MDX
MDX查询的创建者在编写查询前必须确定所请求数据集的结构,基本MDX查询提供如下功能:
A.MDX查询的基本语法信息.
B.成员,元组和集合提供了对成员,元组和集合的简要描述(包括概念性信息及语法); 轴线度和切片器维度描述轴维度和切片器维度及其在带有SELECT和WHERE子句的MDX 查询中的使用.
C.建立多维数据集上下文提供对MDX查询中的FROM子句的用途的描述.

2.对SQL和MDX的比较
尽管SQL和MDX具有相似的语法,但是MDX语法功能异常强大,且可以非常复杂.因为设计MDX的意图就是提供一种查询多维数据的简单而有效的方法,所以它采用了一致且易于理解的方式使用户明确二维查询和多维查询在概念上的区别.
小结
6.1 设计数据挖掘模型
6.2 统计类数据挖掘
6.3 知识类数据挖掘
6.4 MDX语言

吴名居 2006-05-05 16:10 发表评论

数据挖掘

吴名居 — Fri, 05 May 2006 06:13:00 GMT

中科永联高级技术培训中心（ www.itisedu.com ）

什么叫数据挖掘（Data Mining）？关于定义，各人的说法不一。基本上我们可以用一个例子讲清楚：先给你一个大的数据集──假设你可以从中读取数据，下面的问题是：从这里你可以得到什么？从某种角度来看，这是百分之百的统计分析工作，只是数据集太多的缘故罢了。但我们并不想忘记这些数据集是做 IT 的人这么多年来逐渐制造出来的，更何况他们对于如何有效而快速地存储、选取和管理数据，确是有一套真功夫。在 IT 的骨架上把统计的精髓放进去，这的确是对现在这个信息时代的大挑战。

　　时代变了，现在的数据来得既多又快还便宜，多到没有人有时间去看的程度。这就如同我们的医疗体系。早先的医生还要望闻问切，在少量的数据中，设法提取、组合出最好的治疗方案。现在则是一个名医，一上午要在门诊医治一百五十个病人以上。他只能凭某种算法、也就是经验来看病：问一两个问题，听一两个问题，然后开药。这种对数据的不同的处理方式是数据挖掘和传统的数据分析的主要区别。

　　说实在的，我们已经在某些方面具有相当的信息化程度了。你去任何一家医院看病，哪一个窗口没放着一台PC？医生暗示你可以离开的时候，值班的护士已经在她的 PC 上键入了许多你的资料。于是你直接可以去划价、取药，连下一次的预约也有人安排好了。前天，我去医院借了一张X光片，一位五十多岁的老职员用“一阳指”在键盘上一步一个“脚印”地敲了不知多久，才输入了该有的个人信息，然后大家就都松一口似地让计算机去跑，最后当然是拿到X光片。这时回顾身后，已排了一条长龙。

　　这种情况，也暗示着目前信息社会的一类尴尬问题：很多事情都还配不上如此快的计算机—老职员的手指速度固然配不上，我们做统计的人和现有的某些统计方法也配不上，甚至于很多统计观念恐怕也都配不上。于是 IT 的人就跳进来做了个项目：既然有了花大钱做出来的数据库，而且这么多年下来数据堆得满坑满谷，好歹要告诉出钱的老板“这有什么用”。于是，DM便应运而生了。

　　
如何看待数据挖掘

　　数据挖掘是先有了数据才兴起的行业。我不想说“学问”，因为到现在为止，我好像都看不到大学问。数据挖掘能帮我做什么？不同的人有不同的看法，比较乐观的是Berry and Linoff (1997) 的说法：分析报告给你后见之明 (hindsight)；统计分析给你先机 (forESight)；数据挖掘给你洞察力 (insight)。

　　这话说得太强，我不是那么地相信。因为这三者都是在既有的数据上做分析，在概念上应该并无本质区别，差别只是手上的数据集的大小和性质，因此，由方法的不同才有定义的不同。

　　较负面的理解来自Friedman (1997)，他说：“Data mining is a commercial enterprise that seeks to mine the miners。（数据挖掘就是商业企业竭力去寻找挖掘者的过程。）”这句话有多少真实的成分，我并不清楚，但是酸味还是有一点的。在雅虎上键入“Data Mining”，立刻便找到一百五十多个网址。如果用GOOgle 搜寻，它在0.34秒内就找到1,260,000项查询结果。这是在方法论都还没有成熟之前便已有大量商品充斥的情形。看起来真是商机无限。在另一方面，我却在文献上读到：“…… while I apprECiate the importance of data mining, in practice the profit it brings hAS turned out to be surprisingly limited in many key businesses.（虽然我认可数据挖掘重要性，事实上，在很多关键的业务中，它所带来的利润已证明出奇有限。” (Kann 2000)

　　多半的数据库在建造时都另有目的，并不是设计来给大家挖掘的。上帝给我们大海，也许只是想给我们盐。现在盐的利润有限，大家就拼命去提炼铀，结果自然就不会十分理想。

　　我认为，比较中肯的是 Hand et al. (2000) 的说法：“Data mining is the process of seeking intereSTing or valuable infORMation in large data bases.（数据挖掘是一种在大型数据库中寻找你感兴趣或是有价值信息的过程。）”

　　
挖掘需要“用心看”

　　DEMming (1943) 曾说过：“搜集数据的目的是为了行动。”这是在数据的搜集并不便宜的时候所说的话。现在要反过来看：已经有了一大堆数据，当初只是为了搜集而搜集──因为反正不贵，而且说不定某一天会有用─现在我们应该问，这些数据可以提供怎样的信息，能让数据的所有者采取何种有效的行动？我的意思是我们需要用心地去看这些数据。“用心看”有两个角度：整体和局部。

　　从整体看: 模型

　　从整体的角度来看一个数据集，是靠统计学里面的抽样方法就可以发挥得不错的。抽样的要点是细化──用一组较小的、容易处理的精选的数据来反映整体。在这里我们可以做一大堆传统的建模工作，但这里面最主要的观念是抽样。

　　例如 SAS 的Enterprise Miner软件中所构建出来的“表格”，就是全部数据的抽样所得。从抽样的观点来看，数据量再多也不是问题──它反而可使抽样理论更加简单。在数据库上抽样，成本低，且没有我们最头痛的non-response（无反应）问题。这一部分，可以说是所有我们想做的理论和方法都十分成熟，只要找一群还不错的人，将这些已知的事物组合包装就好。在表格上做传统分析，最后的结果当然是一个可以用来描绘所有数据之间的关系的模型。

　　从局部看: 模式发现

　　从局部的角度来看数据挖掘，到目前为止，主要的目的是模式发现。这和我们常听到的模式识别颇有不同。用雷达找飞机的工作，算是后者──我们知道飞机是我们要找的对象。但是在数据挖掘中，我们在通常情况下并不知道我们要找的东西是什么。在技术上，这也不能通过抽样的方法来做。模式是数据的局部结构，在这一部分，数据挖掘强调的方法是算法。数据一多，光凭人力是不能完全解决问题的，我们只有靠明确的指令让计算机一个一个帮我们找。那么在这里，我们就完全用不上统计方法吗？也不尽然。在提取训练样本（trAIning sAMple）的时候，我们是可以把实验设计的想法放进去的。

　　编者按：　　数据挖掘应建立在联机分析处理(On Line Analytical Processing，OLAP)的数据环境基础之上，而数据仓库技术能够满足数据挖掘技术对数据环境的要求。它从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据并进行处理。

　　当今数据容量规模已经达到万亿字节（TB）的水平。过量的数据被人们称为信息爆炸，带来的挑战是：一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手；另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。那么，如何发现这些有用的知识，使之为管理决策和经营战略发展服务？计算机科学给出的最新回答是：数据挖掘（Data Mining）。

　　一般说来，数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程，这些模型和关系可以用来做出决策和预测。支持大规模数据分析的方法和过程，选择或者建立一种适合数据挖掘应用的数据环境是数据挖掘研究的重要课题之一。

　　
建立适合的数据环境

　　数据挖掘应建立在联机分析处理(On Line Analytical Processing，OLAP)的数据环境基础之上。数据挖掘对大量数据的探索式分析的起点是OLAP。数据挖掘需要对大量数据进行反复查询操作，关心数据存取方式的方便性与可操作性。

　　联机分析处理和传统的联机事务处理(On Line Transaction Processing, OLTP)是两种性质不同的数据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作，如民航订票系统、银行储蓄系统等等，对响应时间要求比较高，强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策，主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。

　　目前，多数企业内部的数据状况是分散的，业务数据往往被存放在缺乏统一设计和管理的异构环境中，不易综合查询访问，而且还有大量的历史数据处于脱机状态，不能在线集中存储查询。数据挖掘在对这些数据进行分析前，必须对这些数据进行不同程度的整合和清理，这是数据挖掘的首要环节，但一般的OLTP系统的数据环境是不具备这种能力的。

　　因此，合理而科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。它需要支持OLAP数据系统与OLTP数据系统的分离，需要服务于数据挖掘总体目标的数据再组织，需要有单独的数据分析和数据处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品。

　　
数据仓库技术的引入

　　数据仓库技术能够满足数据挖掘技术对数据环境的要求。实际上，数据仓库技术所要研究和解决的问题就是从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据，处理后为数据分析和管理决策提供应用服务。

　　公认的数据仓库概念是W.H.Inmon在《建立数据仓库》一书中提出的：数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程。

　　数据仓库中的数据是面向主题的，它与传统数据库中的面向应用相对应。数据仓库的主题是一个在较高层次上将数据归类的标准，每一个主题对应一个宏观的分析领域；数据仓库的集成特性是指在数据进入数据仓库之前，必须经过数据加工和集成，这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处，还能够将原始数据结构从面向应用向面向主题转变；数据仓库的稳定性是指数据仓库反映的是历史数据的内容，而不是日常事务处理产生的数据，数据经加工和集成进入数据仓库后是极少或根本不修改的；数据仓库是不同时间的数据集合，它要求数据仓库中的数据保存时限能满足进行决策分析的需要，而且数据仓库中的数据都要标明该数据的时间属性。

　　需要指出的是，数据仓库中的数据并不是最新的、专有的，而是来源于其它数据库的。数据仓库的建立并不是要取代数据库，它要建立在一个较全面和完善的信息应用的基础上，用于支持高层决策分析，而原有的事务处理数据库在总体数据环境中承担的是日常基础业务的处理任务。数据仓库是数据库技术的一种新的应用，而且到目前为止，数据仓库大部分还是用关系数据库管理系统来管理其中的数据。

　　与关系数据库不同的是，数据仓库至今并没有严格的数学理论基础，它更偏向于工程。由于数据仓库的这种工程特性，因而在技术上可以根据它的工作过程分为：数据的抽取、数据的存储和管理、数据的展现等关键技术。

　　◆ 数据的抽取

　　数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境，它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面，未来的技术发展将集中在系统功能集成化方面，以适应数据仓库本身或数据源的变化，使系统更便于管理和维护。

　　◆ 数据的存储和管理

　　数据仓库的组织管理方式决定了它有别于传统数据库的特性，也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多，且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前，许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能，将普通关系数据库改造成适合担当数据仓库的服务器。

　　◆数据的展现

　　在数据展现方面主要的方式有：

　　查询：实现预定义查询、动态查询、OLAP查询与决策支持智能查询；报表：产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表；可视化：用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系；统计：进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析；挖掘：利用数据挖掘等方法，从数据中得到关于数据关系和模式的知识。

　　
数据挖掘与数据仓库融合发展

　　数据挖掘和数据仓库的协同工作，一方面，可以迎合和简化数据挖掘过程中的重要步骤，提高数据挖掘的效率和能力，确保数据挖掘中数据来源的广泛性和完整性。另一方面，数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。

　　数据挖掘和数据仓库是融合与互动发展的，其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果，更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。

吴名居 2006-05-05 14:13 发表评论