paulwong

MAPREDUCE运行原理

  1. 将INPUT通过SPLIT成M个MAP任务

  2. JOB TRACKER将这M个任务分派给TASK TRACKER执行

  3. TASK TRACKER执行完MAP任务后,会在本地生成文件,然后通知JOB TRACKER

  4. JOB TRACKER收到通知后,将此任务标记为已完成,如果收到失败的消息,会将此任务重置为原始状态,再分派给另一TASK TRACKER执行

  5. 当所有的MAP任务完成后,JOB TRACKER将MAP执行后生成的LIST重新整理,整合相同的KEY,根据KEY的数量生成R个REDUCE任务,再分派给TASK TRACKER执行

  6. TASK TRACKER执行完REDUCE任务后,会在HDFS生成文件,然后通知JOB TRACKER


  7. JOB TRACKER等到所有的REDUCE任务执行完后,进行合并,产生最后结果,通知CLIENT


  8. TASK TRACKER执行完MAP任务时,可以重新生成新的KEY VALUE对,从而影响REDUCE个数


posted on 2013-01-29 12:54 paulwong 阅读(265) 评论(0)  编辑  收藏 所属分类: HADOOP云计算


只有注册用户登录后才能发表评论。


网站导航: