GNP-Sarsa结构
2017-03-19 10:17:28 0 举报
GNP-SARSA是一种基于价值迭代的强化学习算法,它结合了广义优势估计器(Generalized Advantage Estimator, GNE)和SARSA算法。GNE用于计算每个状态-动作对的价值函数,而SARSA则用于更新策略。在GNP-SARSA中,首先使用GNE计算出每个状态-动作对的优势函数,然后根据这些优势函数计算出每个状态-动作对的价值函数。接下来,使用SARSA算法更新策略,使得在每个状态下选择具有最大价值的动作。这个过程会不断重复进行,直到收敛为止。总之,GNP-SARSA是一种有效的强化学习算法,能够有效地解决复杂环境中的问题。