缓解数据倾斜方案
2017-09-29 18:32:13 0 举报
AI智能生成
enjoy it, thank u for suggestion
作者其他创作
大纲/内容
0 方法论
估计数据量,数据的分布
1 提高并行度
1.1 rdd
eg:(take)
1.2 partitions
eg:(join ,*bykey...)
原理示意图

2 join场景
2.1 大表 join 小表
常用:广播小表
示意图:
2.2 大表A join 大表B,表A倾斜的键较少,表B分布较均匀
示意图:
2.3 大表A join 大表B,表A倾斜的键较多,表B分布较均匀
示意图:
3 其他策略
待补充
0 条评论
下一页