我的一亩三分地

  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理 ::
  7 随笔 :: 0 文章 :: 17 评论 :: 0 Trackbacks

2010年9月12日 #

不少朋友抱怨我的博客晦涩难懂,实际元数据、主数据、数据质量、数据分析已经非常小众了,小众的以至于在ITPUB发博都找不到分类,实际这也是我看好它的原因。随着未来智慧地球、物联网的建设,信息化进程大大加快,需要虚拟化云计算)、IT资源监管(数据资产、软硬件资产)、移动应用。我们的小众是属于数据资产监管中的一部分。

上周挖了不少坑,本周先填一个坑,填元数据模型的坑。元数据模型简称元模型。元数据有哪几类元数据模型就有几类,粗分下分为数据移动(ETL)元数据、数据分析(BI)元数据、数据存储元数据,数据质量元数据、数据管控元数据等。下面逐一介绍下这几类元数据:

数据存储元数据模型:要分结构化和非结构化两种介绍,先说大家常见的结构化数据的元数据模型。我们知道描述数据库信息需要Catalog、Schema、Table、View、Trigger和storage process,当然一般把Trigger和SP理解为数据移动,这些元数据都有哪些属性你可以看看power designer。对于非结构化数据解决方案不多,因为对于非结构化数据与查询息息相关,一般针对索引条件建立元数据模型。

数据移动元数据模型:这一直是我思考的问题,参照主流ETL工具我们可以定义Workflow、Task、mapping、source、target等,记得source与target与数据存储元数据模型可以互联。Mapping要记录source至target间的转换过程。

数据应用元数据模型:主要考虑带OLAP引擎的CUBE模型,主要有:Cube、Dimension、member Of、Hierarchy、Fact等。

讲到这里,基本解决了的元数据管理中元数据存储和展示的问题。但这并是问题的本质,实质是元数据模型与CWM之间的关系,但为了避免文章晦涩难懂,我跳过这些。

posted @ 2010-09-12 23:15 西北狼 阅读(178) | 评论 (0)编辑 收藏

2010年9月11日 #

元数据的定义就五字-数据的数据,这种极度抽象的定义直接导致我们对元数据的认知是极度抽象的,这种极度抽象就造成了元数据的神化,我想接下来要做的就是将元数据拉下神坛。
    元数据是数据的数据,我们一般采用数据模型对抽象定义数据及数据的关系,那么元数据一定也能被数据模型表述。那元数据的数据模型是什么样的?它与数据的数据模型有哪些异同。目前元数据建模标准体系,我们一般采用OMG(请记住这个国际知名的标准化组织,因为除了元数据模型标准外,它们还制定了MDA、UML、XMI等)的CWM标准。那么一个标准的元数据模型体系由什么组成呢,除了包外,每个元模型由管理、分析、资源、基础和对象。管理是指数据仓库操作和过程;分析是指OLAP、数据挖掘、信息可视化、ETL;资源是指对象、关系、记录、多维、XML;基础是指业务信息、数据类型、表达式、键和索引、软件部署、类型映射。介绍了这么如果你搞过业务智能你会明白CWM描述了整个数据仓库的全部,如果你参与过我们的项目会知道,这是我们数据管控平台的理论依据。那么数据仓储的元数据如何定义?数据移动的元数据如何定义?数据分析的元数据如何定义?先挖坑以后慢慢填。
     下面说说元数据如何管理如何应用:首先是元数据获取,元数据获取的内容包括分析元数据、数据仓储元数据、数据转换元数据等等,元数据获取方式方式包括自动获取或手工获取,当然元数据获取最难的是非结构化元数据的获取,但是也有解决的办法只是这里存在获取准确度的问题,为了保证文档的纯洁性,我再次挖坑。其次是元数据仓储,简单的说包括数据库表结构如何存储,CUBE的结构如何存储,ETL过程如何存储等等,实际这是个模型的问题,但这纯粹存储模型的问题。同上,我再次挖坑。最后是元数据应用,包括血缘分析、重要度分析、相似度分析等等。
     最后说下元数据管理的衍生业务:一是元数据的质量管理,这是个鸡和蛋的问题,为了保证数据质量我们引入元数据定义数据的质量,但引入元数据后又要保证元数据的质量;二是基于元数据的数据仓库开发,同志们baidu都有,我不说了;三是基于元数据的安全管理,引入元数据除解决质量问题外,就是密级问题;四是基于元数据的指标体系管理。
      挖了很多坑,终于理出元数据的脉络,当然元数据管理系统也初见轮廓。
posted @ 2010-09-11 21:09 西北狼 阅读(230) | 评论 (0)编辑 收藏

2007年7月29日 #

     摘要: 乱弹数据仓库的第二弹,ODS的功能和作用。希望对大家有用  阅读全文
posted @ 2007-07-29 14:01 西北狼 阅读(2170) | 评论 (2)编辑 收藏

2007年7月2日 #

     摘要: 关于客户方面对软件项目影响,最近也是遇到了几个类似的项目,有感而发写下来,希望对大家有用。  阅读全文
posted @ 2007-07-02 22:12 西北狼 阅读(1014) | 评论 (1)编辑 收藏

2007年6月27日 #

     摘要: 乱弹数据仓库,用通俗易懂的方式讲清楚数据仓库。让老鸟见笑了。  阅读全文
posted @ 2007-06-27 23:11 西北狼 阅读(1386) | 评论 (4)编辑 收藏

2007年6月26日 #

     摘要: 总结前一阶段项目成功与失败的地方,有些方法和想法与各位share下。  阅读全文
posted @ 2007-06-26 17:50 西北狼 阅读(1607) | 评论 (6)编辑 收藏

仅列出标题