无为

无为则可为，无为则至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

一、 时代的挑战 檛犫虎鏈?d
　　近十几年来 , 人们利用信息技术生产和搜集数据的能力大幅度提高 , 千万万个数据库被用于商业管理、政府办公、科学研究和工程开发等等 , 这一势头仍将持续发展下去。于是 , 一个新的挑战被提了出来 : 在这被称之为信息爆炸的时代 , 信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没 , 从中及时发现有用的知识 , 提高信息利用率呢 ? 要想使数据真正成为一个公司的资源 , 只有充分利用它为公司自身的业务决策和战略发展服务才行 , 否则大量的数据可能成为包袱 , 甚至成为垃圾。因此 , 面对 " 人们被数据淹没 , 人们却饥饿于知识 " 的挑战 , 数据挖掘和知识发现 (DMKD) 技术应运而生 , 并得以蓬勃发展 , 越来越显示出其强大的生命力。學畑??y?
[[潚;w:?
　　数据挖掘 (Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中 , 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。还有很多和这一术语相近似的术语 , 如从数据库中发现知识 (KDD) 、数据分析、数据融合 (Data Fusion) 以及决策支持等。人们把原始数据看作是形成知识的源泉 , 就像从矿石中采矿一样。原始数据可以是结构化的 , 如关系数据库中的数据 , 也可以是半结构化的 , 如文本、图形、图像数据 , 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的 , 也可以是非数学的 ; 可以是演绎的 , 也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等 , 还可以用于数据自身的维护。因此 , 数据挖掘是一门很广义的交叉学科 , 它汇聚了不同领域的研究者 , 尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。癅7景鞬L?
墐贩!U;徫l
　　特别要指出的是 , 数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用 , 而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理 , 以指导实际问题的求解 , 企图发现事件间的相互关联 , 甚至利用已有的数据对未来的活动进行预测。 4i}y櫂w?
)蕊V吱膣I
二、 研究现状 峻6&?琟
+ P%阏??
　　 KDD 一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。迄今为止 , 由美国人工智能协会主办的 KDD 国际研讨会已经召开了 7 次 , 规模由原来的专题讨论会发展到国际学术大会 , 人数由二三十人到七八百人 , 论文收录比例从 2X1 到 6X1, 研究重点也逐渐从发现方法转向系统应用 , 并且注重多种发现策略和技术的集成 , 以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一 , 成为当前计算机科学界的一大热点。

　　此外 , 数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了 KDD 专题或专刊。 IEEE 的 Knowledge and Data Engineering 会刊领先在 1993 年出版了 KD D 技术专刊 , 所发表的 5 篇论文代表了当时 KDD 研究的最新成果和动态 , 较全面地论述了 KDD 系统方法论、发现结果的评价、 KDD 系统设计的逻辑方法 , 集中讨论了鉴于数据库的动态性冗余、高噪声和不确定性、空值等问题 ,KDD 系统与其它传统的机器学习、专家系统、人工神经网络、数理统计分析系统的联系和区别 , 以及相应的基本对策。 6 篇论文摘要展示了 KDD 在从建立分子模型到设计制造业的具体应用。瑞奔身?靬
?烪?餌[5
　　不仅如此 , 在 Internet 上还有不少 KDD 电子出版物 , 其中以半月刊 Knowledge Discove ryNuggets 最为权威 , 另一份在线周刊为 DS*(DS 代表决策支持 ),1997 年 10 月 7 日开始出版。在网上 , 还有一个自由论坛 DM Email Club, 人们通过电子邮件相互讨论 DMKD 的热点问题。而领导整个潮流的 DMKD 开发和研究中心 , 当数设在美国 EMDEN 的 IBM 公司开发部。至于 DMKD 书籍 , 可以在任何计算机书店找到十多本 , 但大多带有商业色彩。 S*@%蛮0$2
?V橛牶#
三、内容和本质 ?RCKO葺
橣鐲?垫p?
　　随着 DMKD 研究逐步走向深入 , 人们越来越清楚地认识到 ,DMKD 的研究主要有 3 个技术支柱 , 即数据库、人工智能和数理统计。 {鮣珧 ?樗
胥?L ?
　　数据库技术在经过了 80 年代的辉煌之后 , 已经在各行各业成为一种数据库文化或时尚 , 数据库界目前除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外 , 已经在开始反思。数据库最实质的应用仅仅是查询吗 ? 理论根基最深的关系数据库最本质的技术进步点 , 就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶 , 发现才是数据库的主人 ; 数据只为职员服务 , 不为老板服务 ! 这是很多单位的领导在热心数据库建设后发出的感叹。 F(?滽鑻
篛}uX卐
　　由于数据库文化的迅速普及 , 用数据库作为知识源具有坚实的基础 ; 另一方面 , 对于一个感兴趣的特定领域——客观世界 , 先用数据库技术将其形式化并组织起来 , 就会大大提高知识获取起点 , 以后从中发掘或发现的所有知识都是针对该数据库而言的。因此 , 在需求的驱动下 , 很多数据库学者转向对数据仓库和数据挖掘的研究 , 从对演绎数据库的研究转向对归纳数据库的研究。 Q8 哔>
牽餖bh熟?=
　　专家系统曾经是人工智能研究工作者的骄傲。专家系统实质上是一个问题求解系统 , 目前的主要理论工具是基于谓词演算的机器定理证明技术——二阶演绎系统。领域专家长期以来面向一个特定领域的经验世界 , 通过人脑的思维活动积累了大量有用信息。

　　在研制一个专家系统时 , 知识工程师首先要从领域专家那里获取知识 , 这一过程实质上是归纳过程 , 是非常复杂的个人到个人之间的交互过程 , 有很强的个性和随机性。因此 , 知识获取成为专家系统研究中公认的瓶颈问题。字z:棅畝
u藖?lt;奁q?
　　其次 , 知识工程师在整理表达从领域专家那里获得的知识时 , 用 if-then 等类的规则表达 , 约束性太大 , 用常规数理逻辑来表达社会现象和人的思维活动局限性太大 , 也太困难 , 勉强抽象出来的规则有很强的工艺色彩 , 差异性极大 , 知识表示又成为一大难题。 ?躷,菚h
j?l譓t.
　　此外 , 即使某个领域的知识通过一定手段获取并表达了 , 但这样做成的专家系统对常识和百科知识出奇地贫乏 , 而人类专家的知识是以拥有大量常识为基础的。人工智能学家 Feigenbaum 估计 , 一般人拥有的常识存入计算机大约有 100 万条事实和抽象经验法则 , 离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据 " 在某地发现一只刚死的波斯猫 " 的情报很快断定敌高级指挥所的位置 , 而再好的军事专家系统也难以顾全到如此的信息。 m?-喒j#?
撀緳葎
　　以上这 3 大难题大大限制了专家系统的应用 , 使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理 , 尤其是从事机器学习的科学家们 , 不再满足自己构造的小样本学习模式的象牙塔 , 开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本 , 也走上了数据挖掘的道路。伥"殓0
5+?"銎?
　　数理统计是应用数学中最重要、最活跃的学科之一 , 它在计算机发明之前就诞生了 , 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具 , 已成为信息咨询业的基础。信息时代 , 咨询业更为发达。然而 , 数理统计和数据库技术结合得并不算快 , 数据库查询语言 SQL 中的聚合函数功能极其简单 , 就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求 , 概率论和数理统计就获得了新的生命力 , 所以才会在 DMKD 这个结合点上 , 立即呈现出 " 忽如一夜春风来 , 千树万树梨花开 " 的繁荣景象。一向以数理统计工具和可视化计算闻名的美国 SA S 公司 , 领先宣布进入 DMKD 行列。郋僤救搹1}
?緐yv?%-
　　数据挖掘所能发现的知识有如下几种 : 广义型知识 , 反映同类事物共同性质的知识 ; 特征型知识 , 反映事物各方面的特征知识 ; 差异型知识 , 反映不同事物之间属性差别的知识 ; 关联型知识 , 反映事物之间依赖或关联的知识 ; 预测型知识 , 根据历史的和当前的数据推测未来数据 ; 偏离型知识 , 揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现 , 随着概念树的提升 , 从微观到中观再到宏观 , 以满足不同用户、不同层次决策的需要。擄?侩巸 O
n鳩?q?
四、发展方向 #t罉\
橕€?/騳
　　当前 ,DMKD 研究正方兴未艾 , 预计在 21 世纪还会形成更大的高潮 , 研究焦点可能会集中到以下几个方面 : 研究专门用于知识发现的数据挖掘语言 , 也许会像 SQL 语言一样走向形式化和标准化 ; 寻求数据挖掘过程中的可视化方法 , 使得知识发现的过程能够被用户理解 , 也便于在知识发现过程中的人机交互 ; 研究在网络环境下的数据挖掘技术 , 特别是在 Int ernet 上建立 DMKD 服务器 , 与数据库服务器配合 , 实现数据挖掘 ; 加强对各种非结构化数据的挖掘 , 如文本数据、图形图像数据、多媒体数据。但是 , 无论怎样 , 需求牵引 , 市场驱动是永恒的 ,DMKD 将首先满足信息时代用户的急需 , 大量基于 DMKD 的决策支持软件工具产品将会问世

凡是有该标志的文章，都是该blog博主Caoer（草儿）原创，凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-24 14:59 草儿阅读(178) 评论(0) 编辑收藏所属分类: BI and DM

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos开发心得 WEB数据仓库系统层次结构轻量级数据仓库移动电信数据仓库设计六环节数据挖掘--极具发展前景的新领域智能学习资源最佳JAVA BI工具专家观点：数据挖掘的本质

无为

公告

随笔分类(222)

随笔档案(188)

相册

收藏夹(6)

AJAX

DB BI DM

ＪＡＶＡ编程论坛

ＵＭＬ技术论坛

搜索

积分与排名

最新评论

阅读排行榜