强化学习
2019-12-24 10:44:02 3 举报
AI智能生成
关于人工智能技术中强化学习的学习笔记
作者其他创作
大纲/内容
强化学习
典型应用
围棋比赛直升机特技动作投资管理机器人行走玩游戏
与监督学习和无监督学习的区别
不需要标签,但是有奖励,和环境互动,从奖励中学习
强化学习具有平衡“探索”+“经验”的特点,exploration & exploitation
组成要素
智能体(Agent)
环境(Environment)
动作(Action)
奖励(Reward)
分类
Model-Free RL
Value-Based RL
Q-learning
Sarsa
DQN
发展
Simple DQN
Double DQN
Prioritized Experience Replay DQN
Dueling DQN
输入是状态s,输出为每个动作对应的Q函数值
Policy-Based RL
Policy Gradients
输入为状态s,输出为下一步采取的action概率分布
以上两者结合
Actor-Critic
MC AC
TD AC
DDPG
Deep Deterministic Policy Gradient
A3C
Asynchronous Advantage Actor-Critic
PPO/DPPO
Distributed Proximal Policy Optimization
Model-based RL
Dyna & Dyna-2
1.预先已知模型,直接RL强化学习2.从现实先学出一个model,再基于这个model生成样本,再进行RL强化学习(比如走围棋)
其他分类方式
单步更新 & 回合更新
回合更新:Monte-Carlo update
在策略更新 & 离策略更新
On-Policy从工作中学习,从实际经验中抽样学习策略,即学习之后发现最优的action是啥,下一步就采用这样的action,例如,Sarsa,Policy-Gradients,Actor-Critic
Off-Policy站在别人肩膀上,经验可能是通过另外一个策略采样得到,即你计算最优值和你实际采用的action可以不一样,例如,Q-Learning,DQN
0 条评论
回复 删除
下一页