2.提高并行度
1、改变HDFS Block个数 (不建议,复杂)
2.初始化RDD的时候,设置分区数
3.使用shuffle类算子的时候,设置并行度 reduceByKey、join
4.spark.default.parallelism
conf.set(“spark.default.parallelism”,10)
spark-submit --conf spark.default.parallelism =10(推荐)
全局:spark-default.conf
5.repartition、coalesce算子 增加RDD的分区数
repartition(numPartitions)= coalesce(numPartitions, true)
coalesce(numPartitions,isShuffle)