平衡杆
2023-07-27 09:32:31 0 举报
1
作者其他创作
大纲/内容
更新Q
Yes
得到奖励bonus=winBonus
NO
计算新的状态 z2 与状态数组 states 中每个状态之间的欧几里得距离,并把最小的状态的索引,存储在变量 snewIdx 中
rand()<=successRate
yes
判断迭代次数是否达到最大episodes ~= maxEpi
将ε乘以一个衰减因子降低智能体探索程度
重设钟摆
通过RK4循环计算k1k2k3k4font color=\"#000000\
计算钟摆位置Z1和状态数组中每个状态的欧几里得距离,判断钟摆处于哪种状态
bonus=0
结束
(rand()>epsilon || episodes == maxEpi)
检查新状态的范数是否小于0.01判断是否处于直立
窗口关闭
T = actions(aIdx);
if
开始
0 条评论
下一页