bandit原理

2016-12-27 10:35:18 0 举报
仅支持查看
Bandit算法是一种强化学习算法,它通过与环境的交互来学习最优策略。Bandit算法的核心思想是平衡探索和利用,即在尝试不同的动作以获得更多信息的同时,也要根据已有的信息选择最优的动作。Band
作者其他创作
大纲/内容
评论
0 条评论
下一页