bandit原理
2016-12-27 10:35:18
0
举报
Bandit算法是一种强化学习算法,它通过与环境的交互来学习最优策略。Bandit算法的核心思想是平衡探索和利用,即在尝试不同的动作以获得更多信息的同时,也要根据已有的信息选择最优的动作。Band
reward calculate
算法桶Strategy 2
pool id
agent
Strategy 0baseline
Strategy K
TPP
算法桶Strategy 1
流量分发
...
算法桶Strategy n
Interleavding