bandit原理
2016-12-27 10:35:18 0 举报
Bandit算法是一种强化学习算法,它通过与环境的交互来学习最优策略。Bandit算法的核心思想是平衡探索和利用,即在尝试不同的动作以获得更多信息的同时,也要根据已有的信息选择最优的动作。Band
作者其他创作
大纲/内容
reward calculate
算法桶Strategy 2
pool id
agent
Strategy 0baseline
Strategy K
TPP
算法桶Strategy 1
流量分发
...
算法桶Strategy n
Interleavding
0 条评论
下一页
为你推荐
查看更多