4. DAGScheduler
2016-12-28 13:45:35 0 举报
DAGScheduler是Apache Spark中的一个调度器,它负责将Spark作业拆分成多个阶段,并为每个阶段生成有向无环图(DAG)。DAGScheduler的主要目标是优化作业的执行计划,以提高作业的性能。它通过分析作业的逻辑和物理执行计划,以及集群的资源情况,来选择最佳的执行策略。此外,DAGScheduler还支持动态分区裁剪、任务重试等功能,以进一步提高作业的可靠性和性能。总之,DAGScheduler是Spark中一个非常重要的组件,它为Spark提供了强大的调度和优化能力。
作者其他创作
大纲/内容
最后一个Stage
RDD的Stage划分
ShuffleMapTask
DAGScheduler的runJob
计算Task最佳位置
提交Stage
主程序执行Action操作
SparkContext的runJob
划分Stage结束后
创建一批Task
ResultTask
根据每一个Partition创建一个Task
循环
isShuffleMap
创建TaskSet,调用TaskScheduler的submitTasks
0 条评论
下一页