tangtb

Hadoop,SpringMVC,ExtJs,Struts2,Spring,SpringSecurity,Hibernate,Struts
posts - 25, comments - 88, trackbacks - 0, articles - 0
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

Hadoop

Hadoop、Hbase、Pig、Sqoop等
     摘要: Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要 是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用  阅读全文

posted @ 2015-02-25 14:48 tangtb 阅读(6524) | 评论 (0)  编辑 |

     摘要: Pig是一个基于Hadoop的大规模数据分析平台对高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算,Pig 可以简化 Hadoop 的使用。  阅读全文

posted @ 2014-06-04 22:14 tangtb 阅读(5452) | 评论 (0)  编辑 |

     摘要: HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。  阅读全文

posted @ 2014-06-04 22:00 tangtb 阅读(11307) | 评论 (0)  编辑 |

     摘要: 前置条件
成功安装配置Hadoop集群
成功编译安装Hadoop Eclipse插件
本地有和服务器相同版本的Hadoop安装包,并已解压(本例使用hadoop-1.1.2)
  阅读全文

posted @ 2014-06-03 21:09 tangtb 阅读(1735) | 评论 (0)  编辑 |

     摘要: Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。
Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。  阅读全文

posted @ 2014-05-31 14:41 tangtb 阅读(19541) | 评论 (3)  编辑 |

     摘要: Hadoop由 Apache Software Foundation 公司于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。  阅读全文

posted @ 2014-05-31 14:30 tangtb 阅读(2143) | 评论 (0)  编辑 |

posted @ 2014-05-31 14:14 tangtb 阅读(1444) | 评论 (0)  编辑 |