posts - 82, comments - 269, trackbacks - 0, articles - 1
  BlogJava :: 首页 :: 新随笔 :: 联系 :: 聚合  :: 管理

2011年8月22日

posted @ 2011-09-08 08:59 itspy 阅读(319) | 评论 (0)编辑 收藏

posted @ 2011-09-07 21:02 itspy 阅读(16291) | 评论 (0)编辑 收藏

     摘要: Hadoop在做Join时, Bloom Filter可以在Mapper阶段就帮助过滤掉大部分无用数据, 同时也不需要把大量的List数据复制到每个Mapper节点. 相比下面的几种方法十分具有优势.

1) 在Reduce阶段进行Join,这样运算量比较小.(这个适合被Join的数据比较小的情况下.)

2) 压缩字段,对数据预处理,过滤不需要的字段.





  阅读全文

posted @ 2011-08-22 21:43 itspy 阅读(1549) | 评论 (0)编辑 收藏