无为

无为则可为，无为则至深！

:: 管理

190 Posts :: 291 Stories :: 258 Comments :: 0 Trackbacks

数据挖掘之Enterprise Miner

总的看法 ：SAS/Enterpreise Miner是在数据挖掘市场上令人敬畏的竞争者。它支持SAS统计模块，使之具有杰出的力量和影响，它还通过大量数据挖掘算法增强了那些模块。SAS使用它的SEMMA方法学以提供一个能匚鮍噵/妃
支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。 /薇铞[
SAS Entelprise Miner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的，且它易于理解和使用。它允许一个分析者通过构造一个使用链接连接数据结点和处理结点的可视数据流图建造一个模型。另外，此界面允许把处理结点直接插入到数据流中。由于支持多种模型，所以Enterprise Miner允许用户比较(评估)不同模型并利用评估结点恺鸢Mb?
选择最适合的。另外，Enterprise Miner提供了一个能产生被任何SAS应用程序所访问的评分模型的评分结点。覎螔ue濌8?
SAS Enterprise Miner能运行在客户／j匠务器上或(计算机的外围设备)能独立运行的配置上。此外，在客户／服务器模式下，Enterprise Miner允许把服务器配置成一个数据服务器、计算服务器或两者的综合。EntepnseMiner被设计成能在所有SAS支持的平台上运行。该结构支持胖客户机配置(要求客户机上的完全SAS许可证)以及瘦客户机(浏览器)版本。懖E\5?
数据访问、操纵和预处理：直接数据界面贯穿于SAS数据集。然而，数据也能通过标准SAS数据程序(例如：访问RDBMS和PC格式数据的ACCESS被访问。对Oracle、Informix、Sybase和DB2RDBMS的支持是通过ACCESS来实现。 |F[8_;a跄
数据操纵能力包括通过基本SA3引擎可用的所有特征。此外，各种各样的数据取样和数据划分技术也通过合适的EntelprjseMiner结点被支持。 Co?€瀨 ?
数据挖掘技术、算法和应用程序：SAS Entelprise Miner支持关联、聚类、决策树、神经元网络和经典的统计回归技术。茁剀捈夽臸
●关联：此算法允许关联规则勘测(例如市场划分分析)和顺序模式勘测。 ?輦騶?
●聚类：无监督学习技术用作初始知识勘测和数据可视化。 憽&?v
●决策树：支持几种决策树技术：CHAID and Entropy Reductlon(二进制和绝对变量)和F—TESTandVarianceReduc血n(为间隔目标变量)。 €奈?
●神经元网络：支持几种神经元网络，包括多层感知器(MLP)和基于半径的函数(RBF)。Enterpdse Miner还提供了各种各样的转变和报错函数以及训练方法。设计这些能力是为了提供比标准向后传播网络更好的预测和运行时性能。貄|?l
●回归：EnterpdseMiner支持多种在标准SAS上已被实现的回归技术。獮氀约
   Enterpdse Miner支持市场划分分析、分类、预测模型、顾客分析、计量经济时序的统计分析范围、运作研究和其它许多方面。纷w矝E!輣Y
   使用工具：Entepnse Miner为构造预测模型提供了大量选项。指定过程是在可视化编程环境中通过拖拉和按下动作完成的。大量的默认集使它能对初学者合适。 iI裯a盂$?
   Enterprise Miner为神经元网络的解释提供了日志文件和SAS源代码。 >詄]l?+?
   Enterprise M1ner支持两种评估模型的方法：通过模型管理器或通过评估结点。模型管理器是从特定的模型分析输出结果的好工具。评估结点在评估模型的概况和健壮性方面很有用。两者都支持提升表、利润表、ROI和别的指示器。勺C靠橇>
   由于评分结点能把模型存储在SAS结构中以各以后代入数据，所以模型能通过使用评分结点被直接配置。 o阻炄玦w韇
   有经验的用户能利用把任意复杂的代码并入数据流的SAS代码结点。关于元数据，Enterprise Miner使用了与SAS系统其它部分一样的元数据。 t?鶰梳
   结论：由于它在统计分析软件上的丰富经验，所以SAS开发出了一个全功能、易于使用、可靠和易于管理的系统。模型选项和算法所覆盖的广阔范围、设计良好的用户界面、现存数据商店的能力和在统计分析市场所占的巨大份额(允许一个公司获得一个增加的SAS部件而不是一个新的工具)都可能使SAS在数据挖掘市场上取得领先位置。由于它最近刚投放市场，所以在写此书时只能获得少数公布的用户基推测试。这些结果表明Enterprise Miner在可伸缩性、预测准确性和处理时间上都表现得很好。总的来说，此工具适合于企业在数据挖掘方面的应用以及CBM的全部决策支持应用。︿W数据挖掘之Clementine(SPSS)

总体看法：C1ementine是SPSS的数据挖掘应用工具。这种工具可把直观的用户图形界面与多种分析技术相结合。这些技术包括神经元网络、关联规则和规则归纳技术。这些分析能力由一个易于使用的可视化编程环境所提供。匵闡摭閮%
C1ementinee所使用的图形表现是在屏幕上拖动、按下和连接功能节点。节点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和模型分析节点。模型产生过程由从托盘中选择正确的节点、把它们放到屏幕上和连接节点组成。 9-SH`(
C1ementinee提供了丰富的数据访问能力，其中包括对展开文件和关系数据库(通过ODBC)的访问。C1ementine具有通过把建模结果写回一个与ODBC兼容的DBMS而使它们保持一致的能力。输入数据操纵包括合并匹配字段和派生新字段的能力。 H7蓽?I橄?
C1ementine的数据可视化能力包括分布图、线性图和网络分析。圜盟_偔?
C1ementine可在运行W1ndowsNT的Intel Penhum系统、运行HPUXl0及以上的HP900系列、运行IRIX的Silicon Graphics、运行Solaris 2.x的SunSPARC和运行DigihlUNIX 3.x或VMS6．x的D1gihlALPm上使用。 ?FP74顄MW
数据访问、操纵和预处理：C1emen6ne能导入分隔的文本文件、用逗号分隔值的文件和定长记录的文件(ASC11)。别的数据源可通过支持的ODBC接口使用。主要的关系数据库系统包括Oracle、Sybase、Infomix和CA—Ingres都可通过ODBC访问。 D賜芔欦^
C1ementlne的数据操纵能力包括以下这些方面：鞍?31oPK
●通过记录顺序对记录进行合并。
数据挖掘之Intelligent Miner(IBM)

总的看法： IBM使用它在美国(例如Waston Research、Almaden Rese)和世界上的(例如：在法国的EC八M，在德国的BobUngen)研究实验室的庞大资源致力于开发数据挖掘方案已有许多年了。这些努力的结果是一套包含了在人工智能、机器学习、语言分析和知识勘测领域的应用和基础研究成果在内的复杂销软件方案。 f0阁鄀z=毫
在这里讨论的产品是取Intelengent Miner for data。歈f??4
IBM的Inten1igent Miner正在竞争数据挖掘工具市场的领导地位，它提供了以下功能： 9榑 ?
   ●最广泛的数据挖掘技术和算法集之一。诜??
   ●在数据规模和计算性能方面具有非常高的可伸缩性；实际上，此产品在IBM SP大规模并行硬件系统上运行是最佳的。此产品可在许多IBM和非IBM的平台上运行。妿???
   ●具有大量能被用来开发用户化数据挖掘应用程序的应用程序编程接口：所有的数据挖掘引擎和数据操纵函数能通过共享C什库被访问。 ?D献螟c屄
   Intel1igent Miner支持分类、预测、关联规则产生、聚类、顺序模式侦测和时间序列分析的算法。Intelligent Miner通过使用复杂的数据可视化技术和一个健壮的基于Java的用户界面(主要面向有经验的用户)来增强它的可用性。In阑1igent LEner支持DB2关系数据库管理系统，并集成了大量复杂的数据操纵函数。媤を翊I屇
Intelligent Miner是一个客户／服务器系统，客户机用于控制用户界面和数据可视化函数，而数据挖掘和数据操纵引擎是在服务器上。服务器组件能被下列平台所支持：运行AIX的BBMRS／6000和IBMSP、运行MVS的赐MS／390和IBMAS／400。客户机组件是在朋ndows95、W1ndowsNT、mM．os／2和运行AIX的IBMRS／6删上。犲閔畣./?
数据访问、操纵和预处理：Intelligent Miner支持展开文件，并提供对DB2的直接访问。后者允许用户直接从关系表构造出勘测和预测模型。DB2服务器被用来向产品传递数据操纵和转换能力，并可充当通向其它关系数据源的途径。如果二进制文件被使用，DB2的数据操纵功能不可用，并且要预处理和变形数据的话需要额外的设施或开发努力。馛6??
然而，所有的模型结果都被存储在二进制文件中。加以1igentMiner是使用一个叫MiningBase的文件结构。Mining Base实质上是一个定义了被产品所使用的所有文件格式的元数据文件。 N献硑踈%
Intelligent Miner基于DB2的数据操纵能力包括以下方面： <N€?,
●自定义集合和计算。 p??扁b?
●大写字母到小写字母的转换。 ?┗鄕=?
●过滤无关系记录和缺值记录。 ??lt;櫯?
●过滤域。 E砅?鉿70
●过滤使用数值集的记录。 ?~i鮂<蠭
●归类记录与合并数据源。  l??
●把多种域转变为一系列二进制域(旋转)。 0?鹆抁?
●把缺失值改为密码。 ‘ tV蜆饦咱9
●数据取样能力——创建随机样本。。墡橙~sUs
●运行SQLo ※腿惷?|
数据挖掘技术、算法和应用程序：Intelligent Miner支持包括Kohonen特征图的神经元网络、时间序列模式、决策树、聚类、关联规则、顺序模式和基于半径的函数。大多数算法是由IBM研究所研发出的，是IBM的专有技术，并只存在于IntelligentMiner中。 ?>饰#夰厜
●神经元网络：包括两个算法L—一用作分类的向后传播网络和Konen特征图。Kohonen特征图是一种把记录划分成相似簇的非监督学习技术。 rD?/??i
●决策树：这是CAU算法的二种变种，用以产生一个分类模型和处理绝对和连续数据。 U罾袘?胫
●时间序列模式：此算法是由IBM A11；aden研究所研发出的：它被用作在过滤噪声时发现时间序列的模式。蕵霽J韻
●聚类：Intelligent Miner提供了按记录的相似分数(相似于以前讨论过的KNN算法)聚类记录的统计学聚类算法。矣累詃券
●关联／p顷序模式规则：此算法也是由IBM刘maden研究所研发出的。它的独特特征是为一个事务文件的项发现关联规则的能力以及发现包括复合规则和层次规则在内的全部规则的能力。在一个标志时间的事务文件中，此算法能侦测出用以分析顾客购买行为和市场构成的顺序模式。 A-?.穌
●基于半径的函数：此算法通过一个依赖变量与记录中其它域的值的关系估计它的值；此技术被用在一个连续值预测方面。 8 ?顽/l皋
Intelligent Miner使用各种各样的算法以支持大量分析，其中包括在交易中(市场分析)对关联训帧序模式的勘测、时间序列(股票市场分析)、顾客分类／剖析、聚类和预测值。夿嚠絠?佸
使用工具：Intelligent Miner为用户提供了大量用来具体定义每个数据挖掘技术的高级参数，例如：最小支持度和置信度因素(关联测顿序模式)、期望的准确率(神经元网络)以及簇的最大和期望的数量(聚类)。齁?夡Su
分类算法支持训练、测试和应用模式，并提供一个无秩序矩阵作为一个评估工具。别的评估方法正在开发中。 ?雉?]癏?
   应用模式能使用外部数据(不是取样数据)来配置型。IntelligentMiner提供了一个广泛的程序库来帮助用户建立和应用模型。 ‘ G鉢9舧??
算法的丰富以及用户化选项的多样使Inte勋gent M1ner的用户界面更适合于一个有经验的用户而不是一个初学者。檤?r嶀c懙
结论：总的来说，IntelligentMiner(ford则是市场上最强大和最有可伸缩性的工具之一。公布的对用户进行调查得到的基准测试显示工具总的性能良好并且在不同的应用环境下一些算法比别的算法运行得好。IBM已投入大量财力以把此工具定位在为企业规模的数据挖掘的一个主要解决方案。
数据挖掘之Darwin(Oracle)

总体看法： Darwin被认为是主要的数据挖掘工具之一。这与它的名声相称。最近，Oracle从Thinking Machine公司获得了Darwln以增强它的产品提供的功能—哨别是在数据挖掘起关键作用的CRM方面，如以前讨论的那样。以下的讨论基于由Thinking Machines公司开发和推出的Darwin特征(伽cle可以决定改变此工具中的任何一个特征、组成部分和结构)。憍釾Smf空
   Darwin数据挖掘工具集被设计作为一个包含三个数据挖掘工具的复杂产品：神经元网决策树和K近邻。Darwin神经元网络工具(DarwinNet)为建模提供了一套综合性的功能它能处理类别的和连续的预测器和目标变量并能被用来处理分类、预测和预报问题。寤?睵瀿 ?
决策树工具(DarwinTme)使用CART算法能被用来解决使用类别的和连续变量的分类问 $替钦鷩M?
K近邻工具(DarwinMatch)能被用来解决使用绝对依赖变量的分类问题以及用来处理类阿D连续的预测器变量。 €?k钢Q
虽然每个组成工具都有一些缺陷，但Darwin提供了一整套对模型进行评估的功能。它勺所有种类的模型产生扼要的统计、无秩序矩阵和提升表。臌埕J?晇6
Darwin为初学者和有经验的人提供了相对较强的用户界面。虽然那个界面看起来更适严一个有经验的用户。 S谥't(mk
由于Darwin产生于一个作为世界上最早制造大规模并行计算机之一的公司，所以它在里效率和可伸缩性方面有很强的优势。它的算法用于为并行计算进行优化，并足够灵活能泞行和序列结构上运行。这种能力显然没有逃过Oracle的注意。Darwin定位在能帮助Oracle)b面向大型跨国企业提供数据库和应用产品的主要厂商。 W漪﹁L?6
Darwlo被设计为一个客户用匠务器系统。它的服务器平台包括单处理机、对称多处理机、厅Wnnd0ws NT的仍则大规模并行处理机以及Sun Mcrosystem、HP、IBM、NCR和mpaq／Di由助的基于UNIX的产品。 "E3h癤圛
数据访问、操纵和预处理：Darwin能从二进制文件和通过ODBC从关系数据库中导定长和分隔数据。在内部，数据是以一种在多处理系统中能被有效安排的特殊形式存Darwin的数据操纵能力包括以下这些方面： zWV劊??
●对分散数据集的合并功能。 rS3€xUM﹫
●从数据集中删除变量。 +??赿/鷠
●定义变量类型(如类别的、排序的)。 \c!&?-
●把序列数据集转变为并行数据集。 ?7棰/玑
●数据取样和分割。 ?lt;擜z淯l
数据挖掘技术、算法和应用程序：当前，系统支持的主要算法是神经元网络、决策树、K近邻。 ?魒e伀薖?
神经元网络训练算法包括反向传播、最陡下降、修改的Newton和几种其它的算法。转函数包括S形、超切线和线性。 G~?駭r
决策树是使用CART算法。这种算法通过选择在分析时考虑的子树的数量能自动修剪 ??感F拿?
K近邻算法是建立在基于记忆的推理(1L佃R)技术之上。它能根据训练记录中K个最近配记录的响应预测依赖变量值。邻居间的远近是由最小化变量间的加权欧几里德距离决定Darwin神经元网络能被用来构造预测和预报模型，并能处理类别和连续变量。决策树、K近邻工具能被用来处理分类问题。 !F?4RY僃
使用工具：Darwin提供了一个丰富的选项以指定模型。例如，对神经元网络，Dalwln许具体说明网络结构、拓扑、转变函数、训练算法、代价函数、学习模式和Vl陈递归的最数目。这些选项是针对有经验的用户。 Q夽Q趹唄
因为神经元网络固有地难以解释，所以Darwin提供了对模型结构、拓扑、算法和函数 壳a8癱輟
决策树组件用于把模型描述成一系列简单的能被用户检查的假设规则。 s磣lP蝶}?
Darwin为模型评估提供了一套完整的功能，包括错误统计报告、分类错误列表、预测际结果的比较报告、无秩序矩阵和一个提升表。楅j諔3\Zb?
结论：Darwin的优点是支持多种算法(有增加遗传算法和模糊逻辑的计灿。在客户／8反目配置下，它能在几个平台上运行。它的服务器平台包括单处理机、对称多处理机和大规行处理机。在多处理机服务器的情况下，Darwin能利用硬件的可伸缩性特征。在公布目户基准中，Darwln显示了强大的性能和可婢缩性。总的来说，Darwin是定位在适合于规模和大规模实现中。例如，最近Darwin被G1E和Cre伽S1Iisse选作大规模顾客关系 Μ憡舕8?
6程序。
数据挖掘之Decision Series(NeoVista)

总的看法： NeoVista Solution的Decisjon Sedes是一个普及的数据挖掘工具。该公司是从一个大规模并行硬件厂商MasPar公司转变而来的。与Darwin相似，这导致了对可伸缩性和高性能数据挖掘方案的强大理解力和很好的实现。膐畮a硧?
   Decislon Senes是一个为描述和预测分析提供一个集成算法集的数据挖掘和知识勘测环境。这些算法能被有效地实现，并对用户提供了作为额外定制功能的各种控制的方法。分析能力包括聚类、关联规则、神经元网络和决策树。De曲i0n Sedes能无缝地把这些算法和数据访问以及数据转化引擎集成在一起。考虑到公司的背景，此工具为了适应在对称多处理机鱙衼$ZG?
系成系牟⑿胁僮饕驯挥姓攵孕缘氐鹘诠９旧萍夯竦媒咏咝缘目缮焖跣浴９ぞ呖缮焖跣缘闹っ鞔嬖谟谒斡肓闶垡?例如WblMan)详细目录管理的事实中。

   DecisionSerles在详细数据(SKU)层次能以周为单位分析销售点数据。这些数据的总量大约700B左右。 驯=S硍1?
   从可用性的观点看，DeCislon Serles被定位在为掌握复杂技术的用户服务。NeoVlsta正在开发易于使用的GUI界面，并提供专家咨询服务(叫做Knowledge DiscoveV Englneer或KDE)。它们经常作为原型的一部分或一个领航项目在当地运行。 0€?Wr4?
   DecisionSelles运行在各种各样的UNIX平台上，其中包括SunS01办s、HP—tJX和D1gitalJNIX。工具的软件结构由几个部分组成，并在设计上是面向对象的。数据挖掘引擎一)eGisiooNet、DeCisionTree、和DeCisionAR是构建在实现DeCisionACcess的弓一个引擎的数据访问和数据转化层的顶端。数据挖掘引擎继承了DecisionAccess的特点，g此能很容易地被连接在一起。 K7髊驞|湿
数据访问、操纵和预处理：由于DBMS的功能被集成到了DeclsjonAccess引擎中，所义Decision Se庇s能导入ASCII格式的任何数据源。Decision S办es能以专有文件结构维护元数据。这些文件能被一个引擎所读取，然后传给下一个引擎。信息能被添加、改变和存储以便以后使用。 鉅(颸'椌
   DecisionSedes的数据操纵能力包括以下这些方面： ?Y鹺?2
●调节以除去局外数据。摳`灸◣鞅?
●格式转变(从整数变为浮点数等)。 Z€櫗腂蕀
●旋转：把多个记录转变为具有多个唯一列的单个记录。 <绵嚫PJ砵
●编码：把数值和字符数据转变为一个特定布局的记录。 ?籓qYU嶥&
●数据取样能力：包括最初和最后的N个记录、在N个记录中取一个样本、范围取值和随机取样。数据挖掘技术、算法和应用程序：Deci赶。n Sedes支持神经元网络、决策树、聚类和关联规则： ?僁%R 9
●神经元网络算法：它在DeClslonNet中实现。它使用了三层前向馈网络，并且单个输入结点代表一个变形输入域。此算法使用了一个专有网络训练技术，在把所有网络输入转变为一行二进制域方面它是独一无二的。这有助于加速训练阶段。DeCisl洲et支持因素分 W酣乻揙??
析。与敏感性分析相类似，这种分析能报告每个输入域对输出预测的影响水平。 2褴耊勜?i
●DecisiooTree引擎：该引擎使用了在树的训练和规则产生方面得到显著增强的C4．5算法。后一方面能产生不互斥的规则。这是用一个广泛的事务规则集代表一棵复杂树的好技 G??潑w)_
术。； F1|9w鲶F?
●DecisionCluster：该算法支持与统计聚类类似的无监督学匀技术。它能处理类别和数值变量，并允许用户具体定义两个矩阵(角矩阵和欧几里德矩阵)之一以确定聚类和观察问的距离。 u裌搝O惀
●DecislooAR：该关联规则引擎是基于无监督规则归纳算法。此算法能产生形如(A蕴含B)和(A和B蕴含C)的规则；每个产生的规则都具有一个置信度水平和支持度水平。 ?S@r?8_
   ‘由Decision Sedes支持的应用分析范围覆盖了分类模型、规则产生、预报和为描述性分析(包括市场划分和连续模式分析)提供的聚类应用。这些分析能在大规模数据集上操作，并且一个算法的输出能被用作另一个算法的输入(通过DecisionAGcess引擎)。另外，NeoVista提供了一个针对零售业的详细目录管理事务应用程序(RDS。Pz，oflle)。 W_lh#q?
使用工具：Decision Se池s为指定模型提供了一个广泛的选项集。它们包括神经元网络的不同结构选项以及决策树中叶结点和深度的限制等。模型可通过Gm或Decision Access ScnptLmguage(DASL)被具体说明。 a皂\8@L?
对决策树而言，模型能被描述为一系列相对简单的规则。神经元网络本身难以理解。对这点，DecisionSedes也无能为力。DecisionNet为模型评估提供了许多统计方法(剩余重心均方差、重心、无秩序矩阵等)。 R镗GXA年
DecisionTree支持无秩序矩阵以及为期望的准确性提供的置信度间隔。使用预测模型别的数据集可在用DecisionNet、DeCisionTree和DecisionCluster生成的模型上运行，只要这些数据是由DecisionAccess读取和编码的。飣婥`7底懀
结论：DeCision Sehes是一个强大的产品，在结构和数据挖掘算法方面有良好的声誉。工具是可伸缩的，并能利用并行硬件结构。在公布的用户基准测试中，在特定种类的问题上(例如银行业和零售业应用)，它在可伸缩性、预测准确性和处理时间上都表现得很好。总的来说DecisionSedes特别适合于大规模分析实现。
数据挖掘之Database Mining Workstation(HNC)

总体看法：HNC是最成功的数据挖掘公司之一。它的Dat8b眺b9mngWo比sta60n(nMw)‘个在信用卡欺诈分析方面被广泛接受的神经元网络工具。DMW是由基于；W3ndows的1软件和一个自定义处理板组成的。别的10fC产品包括应用于金融服务方面的Fdconand记Max应用程序以及AdvancedTeleCommuniC池onA加ssConb01System(ArACS)欺诈侦测E案。HNC计划把此方案应用在远程通信工业中。、 cY0) 幍z+?
   DMW神经元网络支持反向传播神经元网络章法／吨以自动和人工的模式操作。它的指S被广泛统计学以及计算预测器变量和一个依赖变量间敏感性关系的功能所解释。为了在算法修改、数据准备和操纵函数方面具有强大的灵活性，DMW提供了大量自定：项。DMW能有效地处理类别和连续变量，并能被用于处理预测、分类和预报问题。埐?`嵌熳.
DMW为初学者和有经验的用户都提供了界面，包括先进的调整选项和一个脚本工具。 MNx喣a嬓鞐
W还提供了一个直接用于市场竞争的事务模扳。 +s齩f5鬮?
DMW已赢得一个能产生准确和有效预测模型的名声。它的性能和可伸缩性足以支持较3信用卡处理需求。忧垑捪夐mY
数据访问、操纵和顿处理：DMW直接支持定长ASCn文件。DMw被装载和集成到6tS／COPY工具(Concepl7LIalSoRw眺公司)上；该工具能把主要的DBM3、统计和电子数路式转变为适合于DMW的定长ASCH格式。 pR5?@條hF
DMW的数据操纵能力包括以下这些方面： 7U痎璶餪Z
●从数据集中减少变量。 ??lt;盗离?
●自定义变量类型。桖膡瞦W/
●自定义类型的数目。瑆?gLWI3+
●自定义数据规范化函数。 ?萁?ED
●把绝对变量自动变形为二进制。 E?lt;譧?粘?
●缺失值替换。 I?谔!dI
●自选择数据取样。 {"V纸??
DMW数据变换模块管理用于描述配置参数、变量和数据类型、规范化函数、唯一值的和给缺失数据指定值的元数据。 ?吭'ㄛ宭G
数据挖掘技术、算法和应用程序：DMW使用了反向传播神经元网络算法。一个用户能具体说明一个转变函数(逻辑、极限、线性、高斯、反正切或双曲线正切)、学习模式和几个其它参数。 ?q&J伲
DMW能为预测、分类和预报问题创建预测模型。它的主要分析应用领域是信用卡工业的欺诈侦测(分类)。 _閿B瞬鼉
使用工具：DMW在具体说明模型方面提供了强大的灵活性G模型能通过定义主要结构和拓扑参数被人工或自动说明。在自动模式下，DMW能通过对某变量域进行聚类分析来选择相关的预测器变量。哻W"?黀?
DMW为模型解释提供了两种功能：敏感性分析和解释单个预测的帮助功能(例如：此功能能被用来说明为什么一个贷款应用程序被丢弃以及这个丢弃因子有多强)。 ?z蕁助\
DMW能为每个模型产生包含关于执行了多少评估、评估统计信息和正确／不正确预测表的一个日志文件和一个历史文件。评估结果能被放入一个电子数据表格中以进行进一步分析。 D??縋Q?
虽然DMW不能直接获得外部数据库的数据，但它提供了一个叫DeployNet的AU用于配置用DMW建立的模型。 ?妤期|M绚
结论：DMW是一个强大且成熟的产品，并在市场接受上非常成功。它的欺诈侦测／分类应用程序用于实时分析信用卡事务。这是一个对产品的可伸缩性和性能的可靠的证明。
数据挖掘之KnowledgeSEEKER and KnowLedge Studio(Angoss)

总的看法：AngossSonw眺的xhowledgeSEEKER(KS)是一个决策树数据挖掘工具。它使用一个基于CART和CHAID的决策树算法以发现在一个数据集中预测和依赖变量的关系。就这一点而论，KS能被用在带有类别的和连续的依赖变量的分类问题上。 G詛mB澋詮
此工具的主要定位是提供数据勘测能力。它的用户界面提供了决策树模型的图形表示。用户能选择每个分支和指定预测变量归类。此工具也具有一个自动模式，在此模式下所有分支都能被生成。KS为一个有经验的用户提供了许多调整能力，包括修改算法或限制树的生长的能力。KS还包括了它的统计推理弓3擎的一个API，而此引擎允许外部C程序产生模型和导入它们的结果。 魤坅 ?
KS支持MSWlndows的WIntel平台以及包括HPUX、S01办s和AIX在内的几个UNIX平台。 ??娖掠甖
数据访问、操纵和预处理：KS能从包括分隔和定长ASCH文件；Excel、L0tus和QuatboPLo电子数据表格：SAS；SPSS和SPIus在内的大量文件格式中导入数据。它能通过使用ODBC从一个关系数据库中导入数据。樎堑Y?斊o
KS提供了一个叫Edit View的数据操纵函数。使用此函数，KS的用户能做以下这些事：。改变一个变量名。埀淍镋
●丢弃变量。踥ャ?鶕E
●重新定义分组间隔。蠨?8/<C/
●指定一个变量的种类。 ▏垖5弋詄
●从基于SQL查询的一个ODBC源导入数据。胮椙??
●指定缺失值。 8k睟??矬
●把数据划分为基于随机分配的训练和测试样本。 7朗碿T ,!
另一个叫MapData的函数允许KS用户把一个变量的现存值映射为新值。数据挖掘技术、算法和应用程序：KS使用了一个基于CAxr和cHAID的决策树算法。此算法能被用在聚类或详尽模式上。虽然聚类模式类似于支持一个连续变量的CAxr和支持绝对变量的CHAID，但详尽模式能比聚类模式考虑更多的聚类并识别出最具有统计意义的变量。料hb鍠:前
KS能产生一列用来把数据点分到不同组的规则，这种划分是基于变量分配的不同。KS能为二进制、多值和连续数据进行划分并为预测器变量生成二进制和多路分割。 ?斐吽聙
使用工具：KS允许用户具体说明树上的每一次分裂或要求此工具自动生成树。在后一种情况下，用户能在根结点初始化这个过程。KS将从每个结点识别出最具有统计意义的分裂以构造树。提到过的EditView函数允许用户具体说明影响模型的选项。 ?r=J磼95
KS能解释树模型并以带有对每个结点的广泛数据的图形方式显示得到的结果规则。这些包括分类可能性、x’平方值、自由度以及依赖和预测器变量的分配。模型的规则能以一系列x—then语句、肋log代码或SQL语句的形式被导出。釉桑t?饈?
在图形方式下，KS是用一系列互相连接的结点表示一棵决策树。这个界面允许用户完全勘测分析中的所有数据。对于那些太大而不能在一屏中显示的模型，KS提供了一个叫I、reeMap的函数。此函数能通过缩小树在一个小窗口中显示整棵树。 ?>T1僆
结论：xhowledgeSEEKER是一个在目标市场领域建立大小相当的用户基础的成熟产品。在公布的用户基准测试中，它生成了合理的性能和准确的措施。 #5鑪鷲?裿
为了保持产品的动力，Angoss于1998年5月把KnowledgeSEEKER扩充为一个更大的叫Knowledge Studio的分析工具。xhowledge StlLldio的重点在于把不同厂商的数据挖掘组件集成到统一的环境中。通过提供决策树、神经元网络、网络界面和Java可移植性，Angoss计划把Knowtdge Shdio定位为一个开发数据仓库的关键组件。主要面向W1ndows的xhowledge3tudiO也包括一个SDK。SDK设计是通过ActiveX技术来帮助把产品嵌入到垂直应用程序中。Angoss已和许多厂商建立起战略伙伴关系，这些厂商包Cognos、MCI／SHL＼AT＆T和Tandem。
数据挖掘之其他数据挖掘工具

gD卫8(更nfo『mationDi8tovery)：I咖rmahonDiscoveVSystem(mIS)使用了一种归纳规则的专有算法。预测模型器工具使用IDIS产生的规则进行预测。IDIs和预测模型器都能访问关系数据库，其中包括运行在S1L仰和MPP上的并行数据库环境。Inf0rm咖n DiscoveV也提供MAPADIS，此工具使用了Maplnfo技术识别模式和以图的形式显示模式。紣gN穀S脅
NCRKnowledgeDisCoveVWorkbenCh：是一个把对大型数据库系统进行数据访问和几种知识勘测算法结合在一起的集成工具。NCR计划把第三方数据挖掘工具作为它的Knowledge DiscoveVWbrkbench的组成部分。例如，C1ementlne(此章先前讨论过)就计划被包括在此工具中。总的来说，此工具提供的数据挖掘算法包括神经元网络、规则归纳和决策树。ODBC的连通性是访问兆兆字节数据库的一个机制。 >Q愩F?憌?
MineSet(3mton G『ophic3)：Silicon GraPhics是交互数据可视化领域的一个领先考。它的MineSet数据挖掘工具能把大量数据挖掘技术和非常健壮的、新颖的、交互的和高度直观的三维数据可视化结合在一起。MineSet的数据可视化使用了数据钻取、数据综合、动画技术。该工具包括综合的数据转换功能和与数据可视化引擎相连的决策树分类算法。拮靓阀擭he
可视化也被用来执行假设驱动的分析和勘测。规则可视化引擎可交互显示每个规则的强度和支持度。 -?嶰尅抜
NcuralWbrk6rredict(Neu『alW建『办NeurdWOrks kediCt是一个能被应用到许多不同商业和科学问题上的综合神经元网络建模工具。它的主要表现形式是Excel电子数据表格。 ]寃嫞ce \?
Predict的显著特点是它自动执行许多包含在网络构造中的分析任务。该产品是成熟的和非常灵活的，因此非常适合于一个有经验的用户。 >L#遱铄
   OrcIIe8bate(1、orrent)：Toxem(前身是AppliedPardlelTechn010gies)已把它的Orchestrate工具发展为一个能利用并行计算机结构(SMP和MPP)处理数据管理和数据挖掘的综合结构。鳦祄鬫?
Orchestrate设计时就考虑到可伸缩性和高性能，并提供了一个基于C十十的面向对象的界面和一个处理数据管理和数据挖掘的高层的shell环境，数据挖掘组件提供了大量技术，其中包括神经元网络和决策树。此外，Tonent正在致力于并行化SASEnterpriseMner。

凡是有该标志的文章，都是该blog博主Caoer（草儿）原创，凡是索引、收藏
、转载请注明来处和原文作者。非常感谢。

posted on 2006-06-24 14:58 草儿阅读(1159) 评论(0) 编辑收藏所属分类: BI and DM

新用户注册刷新评论列表


只有注册用户登录后才能发表评论。




网站导航: 博客园博客园最新博文博问管理
相关文章: Capacity Planning for the Data Warehouse Environment Bill Gates Is A Failure cognos开发心得 WEB数据仓库系统层次结构轻量级数据仓库移动电信数据仓库设计六环节数据挖掘--极具发展前景的新领域智能学习资源最佳JAVA BI工具专家观点：数据挖掘的本质

无为

公告

随笔分类(222)

随笔档案(188)

相册

收藏夹(6)

AJAX

DB BI DM

ＪＡＶＡ编程论坛

ＵＭＬ技术论坛

搜索

积分与排名

最新评论

阅读排行榜