Spark-DAGScheduler-3
2017-03-21 14:23:56 0 举报
Spark-DAGScheduler-3是Apache Spark中的一个关键组件,负责将作业分解为一组有依赖关系的阶段,并生成执行计划。它采用有向无环图(DAG)的形式表示这些阶段,以便更有效地调度和优化任务。通过动态地将任务分配给集群中的不同节点,DAGScheduler确保了资源的合理利用和作业的高性能执行。此外,它还支持容错机制,如任务重新调度和数据恢复,以确保作业在遇到故障时能够自动恢复。总之,Spark-DAGScheduler-3是Spark数据处理框架中的核心调度器,负责将复杂的计算任务分解为可管理的子任务,并在分布式环境中高效地执行它们。
作者其他创作
大纲/内容
isCurrent
Start
getStage
N
new ResultStage
Y
final rdd
next input rdd
return stage
isStage
createShuffleMapStage
add to parent stage list
input rdd
getOrCreateParentStages
register stage
isEmpty
get all shuffle dependency ancestors
isDone
getMissingAncestorShuffleDependencies
getOrCreateShuffleMapStage
createResultStage
create ancestors and current stage
getShuffleDependencies
0 条评论
下一页