checkpoint恢复流程
2016-09-09 10:59:42 0 举报
在深度学习训练过程中,checkpoint恢复流程是一种常用的策略,用于保存模型在训练过程中的关键状态。当训练遇到问题需要中断时,可以通过加载最近的checkpoint来恢复训练,而无需从头开始。恢复流程通常包括以下步骤:首先,找到最新的或指定的checkpoint文件;其次,加载该文件中的模型参数、优化器状态等信息;最后,使用这些信息继续进行训练。此外,为了确保模型的稳定性和性能,还可以在恢复后对模型进行微调。总的来说,checkpoint恢复流程大大提高了深度学习训练的效率和灵活性。
作者其他创作
大纲/内容
创建start
JobGenerator
SparkConf
创建SparkContext
DStream
getOrCreate
restoreCheckpointData
从checkpoint文件中恢复RDD
创建
遍历checkpointDir目录下面的所有流的checkpoint按照时间顺序由新到旧返回checkpoint文件从checkpoint文件中序列化出checkpoint对象返回第一个序列化成功的对象
从序列化的checkpoint对象中获取之前的conf更新一些可能会发生变动的配置如spark.master
restore
createSparkconf
Checkpoint
StreamingContext
DStreamGraph
DStreamCheckpointData
JobSchduler
read
start
new新建一个StreamingContext
restart
生成上次checkpoint到现在时时间中间所有的job提交上次未执行完毕的jobRecurringTimer.start
CheckpointReader
0 条评论
下一页