MR的shuffle
2020-01-11 15:22:40 0 举报
hadoop是大数据生态系统的基石,Hadoop中的核心计算殷勤MapReduce的shuffle过程时核心中的核心
作者其他创作
大纲/内容
溢写磁盘spill
优化:1.map()方法前后对数据进行压缩2.reduce()方法后进行压缩3.调整环形缓冲区的内存大小为200mb,设置溢写阀值为90%4.调整mapTask和reduceTask的内存(默认1G),成产可调整为4-5G
reduce()
reduceTask
map()
环形缓冲区100mb
归并merge
分区、排序
可选
shuffle阶段
收藏
0 条评论
下一页