

首页  思维导图  详情



MapReduce

2026-01-29 13:58:38   1  举报





AI智能生成

MapReduce知识框架

MapReduce

模版推荐

作者其他创作

大纲/内容

MR的工作机制

图解

Map

MapTask阶段 1）InputForamt输入阶段 本身是一个接口，我们常用是TextInputFormat 如果特殊情况可以自定义 获取切片getsplits LineRecordReader 2）MapTask阶段 自定义Mapper 实现Map

Reduce

Redce Task 阶段 1）ReduceTask 阶段将K2 ，V2 转为K3，V3 2）OutPutFormat 常用的还是TextOutputFormat

shuffle

概念

一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称为shuffle

Map的shuffle：  1、分区，如果想获得到多个结果的时候，就要用到分区，物以类聚 2、排序, 局部的排序 3、规约，默认是不使用，不能影响最终的效果 reduce的shuffle 分组：按照那个字段进行group by 这个字段就是k2

shuffle的压缩机制

压缩比

压缩时间

资源消耗

设置

在代码中进行压缩

在全局配置压缩

所有节点都要修改 mapred-site.xml，修改完成之后记得重启集群

并行度机制

MapTask并行度机制

概念

Maptask的并行度指的是Map阶段有多少个task共同处理任务； 为了调整大小，可以采用把block的大小调整一下，这样split的size就变了

决定

由客户端在提交job时决定：客户端在提交job之前会把数据进行逻辑切片，每个对应的启动一个task; 逻辑切片机制由 FileInputFormat 实现类的 getSplits()方法完成。

切片机制

文件大小/block块大小>1.1

Reducetask 并行度机制

决定

Reducetask 数量的决定是可以直接手动设置：job.setNumReduceTasks(4);

问题

如果数据分布不均匀就会产生数据倾斜

注意的问题

1、如何处理小文件

比如有三个小文件每个文件的大小都是几k 那么一般来说就要运行三个maptask 很浪费那么如何处理呢？？？

通常有三种方式

1、存储到HDFS前

java IO流合并小文件

2、存储到HDFS时

appendToFile 追加上传的时候可以合并

3、存储到HDFS后

存储后可以将文件合并成一个文档

Hadoop里面内置的一个CombineTextinputformat类来处理小文件：格局一定的规则，将HDFS上多个小文件合并到一个InputSplit中，然后启用一个maptask来处理 切片机制过程：两部 1、虚拟存储过程     2、切片过程 切片机制：如果一个文件大于设置最大值的两倍则平均切两份，如果小于最大值则分一块 切片过程：如果文件大小大于setMaxIputSplitSize 值则单独形成一个切片，如果小于则和下个文件合并形成一个切片

产生的小文件造成的影响

消耗NameNode大量的内存：因为很多的小文件，所以元数据信息就会很多

延长MapReduce作业的总运行时间

MapRudece默认的TextInputFormat切片机制是对任务按文件规划切片，如果有大量的小文件，就会创建大量的maptask

2、处理大文件

block会很会会导致maptask就会很多 所以让blocksize设置大一点就好了

3、split的大小和block的大小是一致的  如果是不超过blocksize的1.1倍切割的时候就只有一个split

1

案例

获取案件名称

getPath().getName()

自由主题