更新Q值的情况1
2017-03-19 16:07:18 0 举报
在更新Q值的情况下,系统会重新评估和调整其内部状态的权重。这通常发生在机器学习或强化学习的过程中,当系统接收到新的反馈信息时。Q值是用于衡量系统在特定状态下采取某一行动的预期回报。通过更新Q值,系统能够学习到哪些行动在哪些状态下会带来最大的回报,从而优化其决策过程。这个过程可以帮助系统更好地适应环境变化,提高其性能和效率。
作者其他创作
大纲/内容
B
C
第一天
J1
=b
判断节点b
step=0
进入第二天
reward=r
IDi1=P1
j2
Qj2
P1
判断节点a
Qi2
J2
j1
=d
判断节点j
c2
第二天
step=1
=j
A
step=12
J3
Qi1
step=11
Qa1
判断节点d
IDi1=P2
Qj1
step=10
b2
IDa2=J2
IDb2=J2
IDc1=P2
IDj1=J1
处理节点c
处理节点i
IDd1=J4
Qc2
=k
IDc1=P1
判断节点k
Qd1
step=2
J5
c1
P2
IDj2=J2
a1
i2
Qa2
=c
i1
Qb1
IDb1=J3
Qd2
IDd2=J5
J4
IDa1=J1
Qc1
Qb2
0 条评论
下一页