首页  思维导图  详情



 



强化学习

2019-12-24 10:44:02   3  举报





AI智能生成

关于人工智能技术中强化学习的学习笔记

强化学习

学习笔记

模板推荐

作者其他创作

大纲/内容

典型应用

围棋比赛 直升机特技动作 投资管理 机器人行走 玩游戏

与监督学习和无监督学习的区别

不需要标签，但是有奖励，和环境互动，从奖励中学习

强化学习具有平衡“探索”+“经验”的特点，exploration & exploitation

组成要素

智能体（Agent）

环境（Environment）

动作（Action）

奖励（Reward）

分类

Model-Free RL

Value-Based RL

Q-learning

Sarsa

DQN

发展

Simple DQN

Double DQN

Prioritized Experience Replay DQN

Dueling DQN

输入是状态s，输出为每个动作对应的Q函数值

Policy-Based RL

Policy Gradients

输入为状态s，输出为下一步采取的action概率分布

以上两者结合

Actor-Critic

Critic根据当前策略，最优化价值函数, Actor在Critic建议的价值函数下，最优化策略函数

发展

MC AC

TD AC

DDPG

Deep Deterministic Policy Gradient

A3C

Asynchronous Advantage Actor-Critic

PPO/DPPO

Distributed Proximal Policy Optimization

Model-based RL

Dyna & Dyna-2

1.预先已知模型，直接RL强化学习 2.从现实先学出一个model，再基于这个model生成样本，再进行RL强化学习（比如走围棋）

其他分类方式

单步更新 & 回合更新

回合更新：Monte-Carlo update

单步更新：Temporal-Difference update，更有效率, Q Learning, Sarsa

在策略更新 & 离策略更新

On-Policy从工作中学习，从实际经验中抽样学习策略，即学习之后发现最优的action是啥，下一步就采用这样的action， 例如，Sarsa，Policy-Gradients，Actor-Critic

Off-Policy站在别人肩膀上，经验可能是通过另外一个策略采样得到，即你计算最优值和你实际采用的action可以不一样， 例如，Q-Learning，DQN

 Collect

Get Started

RLHF人类反馈强化学习架构图

 Collect

Get Started

模型化强化学习

 Collect

Get Started

强化学习智能体

 Collect

Get Started

深度强化学习模型





0 条评论

下一页