checkpoint过程
2016-12-04 20:27:04 0 举报
Checkpoint过程是一种在计算机系统或应用程序中用于保存和恢复状态的技术。它通常用于大型计算任务,如训练深度学习模型或运行长时间模拟。在Checkpoint过程中,系统会定期将当前状态信息(例如模型参数、变量值等)保存到磁盘或其他持久性存储介质中。这样,如果任务在执行过程中出现故障或需要中断,可以从最近的Checkpoint恢复,而不是从头开始。此外,通过使用多个Checkpoint,还可以实现任务的并行执行和负载均衡。总之,Checkpoint过程为计算机系统提供了一种灵活且可靠的状态管理机制,有助于提高任务的成功率和效率。
作者其他创作
大纲/内容
节点2
停止接收数据的节点
节点1
s1
节点3
JobMaster
s3
开始checkpoint
写入当前节点的状态
Checkpoint-10
恢复保存的状态
checkpoint进行中
S2
s2
任务重启时读取历史状态
1. 写入当前节点的状态
checkpoint完成
2. checkpoint成功
Checkpoint barrier
3. 确认checkpoint完成
正常处理数据的节点
触发checkpoint
0 条评论
下一页