我的一亩三分地

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  7 随笔 :: 0 文章 :: 17 评论 :: 0 Trackbacks
元数据的定义就五字-数据的数据,这种极度抽象的定义直接导致我们对元数据的认知是极度抽象的,这种极度抽象就造成了元数据的神化,我想接下来要做的就是将元数据拉下神坛。
    元数据是数据的数据,我们一般采用数据模型对抽象定义数据及数据的关系,那么元数据一定也能被数据模型表述。那元数据的数据模型是什么样的?它与数据的数据模型有哪些异同。目前元数据建模标准体系,我们一般采用OMG(请记住这个国际知名的标准化组织,因为除了元数据模型标准外,它们还制定了MDA、UML、XMI等)的CWM标准。那么一个标准的元数据模型体系由什么组成呢,除了包外,每个元模型由管理、分析、资源、基础和对象。管理是指数据仓库操作和过程;分析是指OLAP、数据挖掘、信息可视化、ETL;资源是指对象、关系、记录、多维、XML;基础是指业务信息、数据类型、表达式、键和索引、软件部署、类型映射。介绍了这么如果你搞过业务智能你会明白CWM描述了整个数据仓库的全部,如果你参与过我们的项目会知道,这是我们数据管控平台的理论依据。那么数据仓储的元数据如何定义?数据移动的元数据如何定义?数据分析的元数据如何定义?先挖坑以后慢慢填。
     下面说说元数据如何管理如何应用:首先是元数据获取,元数据获取的内容包括分析元数据、数据仓储元数据、数据转换元数据等等,元数据获取方式方式包括自动获取或手工获取,当然元数据获取最难的是非结构化元数据的获取,但是也有解决的办法只是这里存在获取准确度的问题,为了保证文档的纯洁性,我再次挖坑。其次是元数据仓储,简单的说包括数据库表结构如何存储,CUBE的结构如何存储,ETL过程如何存储等等,实际这是个模型的问题,但这纯粹存储模型的问题。同上,我再次挖坑。最后是元数据应用,包括血缘分析、重要度分析、相似度分析等等。
     最后说下元数据管理的衍生业务:一是元数据的质量管理,这是个鸡和蛋的问题,为了保证数据质量我们引入元数据定义数据的质量,但引入元数据后又要保证元数据的质量;二是基于元数据的数据仓库开发,同志们baidu都有,我不说了;三是基于元数据的安全管理,引入元数据除解决质量问题外,就是密级问题;四是基于元数据的指标体系管理。
      挖了很多坑,终于理出元数据的脉络,当然元数据管理系统也初见轮廓。
posted on 2010-09-11 21:09 西北狼 阅读(230) 评论(0)  编辑  收藏 所属分类: 开发技术

只有注册用户登录后才能发表评论。


网站导航: