MapReduce
2016-08-17 17:04:04   0  举报             
     
         
 MapReduce是一种编程模型和数据处理方法,主要用于处理和生成大数据集。它通过将大规模数据集分解成许多小任务,然后将这些任务分布到集群中的多台计算机上并行处理,最后再将结果合并成一个最终结果。MapReduce的两个主要阶段是Map和Reduce。在Map阶段,输入数据被切分成多个部分,并由不同的节点并行处理,以生成一组中间的键值对。在Reduce阶段,这些中间的键值对被归并和缩减,以生成最终的输出结果。MapReduce的优点包括高度可扩展性、容错性和可靠性,以及简化了分布式计算的复杂性。它被广泛应用于大数据处理领域,如搜索引擎、日志分析、机器学习等。
    作者其他创作
 大纲/内容
 block
    输出
  Reduce
  输入压缩
  其他各自对应的Map
  Reduce端
  输入分片
  复制阶段
  reduce输出格式压缩
  合并
  output
  reduce输入压缩
  reduceTask
  map
  Reduce阶段
  其他各自对应的Reduce
  inputsplit
  MapReduce变成模型
  map输出压缩
  分区、排序和磁盘分割
  maptask
  排序阶段
  复制
  解压
  Map端
  环形内存缓冲区
   
 
 
 
 
  0 条评论
 下一页
  
   
   
   
   
  
  
  
  
  
  
  
  
 