paulwong

HIVE资源

Hive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。


Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式


hive与关系数据库的区别:

数据存储不同:hive基于hadoop的HDFS,关系数据库则基于本地文件系统

计算模型不同:hive基于hadoop的mapreduce,关系数据库则基于索引的内存计算模型

应用场景不同:hive是OLAP数据仓库系统提供海量数据查询的,实时性很差;关系数据库是OLTP事务系统,为实时查询业务服务

扩展性不同:hive基于hadoop很容易通过分布式增加存储能力和计算能力,关系数据库水平扩展很难,要不断增加单机的性能


Hive安装及使用攻略
http://blog.fens.me/hadoop-hive-intro/


R利剑NoSQL系列文章 之 Hive
http://cos.name/2013/07/r-nosql-hive/








posted on 2013-09-01 12:41 paulwong 阅读(400) 评论(0)  编辑  收藏 所属分类: 云计算HIVE


只有注册用户登录后才能发表评论。


网站导航: