概率方法
马尔可夫决策模型
部分可观测马尔可夫决策过程
基于粒子滤波估计智能驾驶员行为参数模型
描述观察数据之间依赖关系并估计其他车辆意图的概率图形模型
基于高斯过程的因素轨迹模型
基于价值的决策模型
该类模型定义了效用(utility)或价值(value)函数,根据某些准则属性定量地评估驾驶策略符合驾驶任务目标的程度,对于无人驾驶任务而言,这些准则属性可以是安全性、舒适度、行车效率等,效用和价值可以是由其中单个属性决定也可以是由多个属性决定。
连续状态层次贝叶斯转换模型嵌入 MDP 模型
基于学习的决策
基于神经网络参数化的混合高斯模型预测车辆运动
逆强化学习(RL)是一种从专家演示中学习未知奖励函数的方法。
伴随未知知识奖励函数的马尔可夫决策
连续的逆最优控制,处理连续的状态和动作
最大熵深度逆强化学习框架
生成式对抗性模仿学习(直接从数据中提取策略)
状态机
有限状态机
特点:If-else-then 结构 ,简单易实现。但该类模型忽略了环境的动态性和不确定性,此外,当驾驶场景特征较多时,状态的划分和管理比较繁琐,多适用于简单场景下,很难胜任具有丰富结构化特征的城区道路环境下的行为决策任务。
基于规则的决策模型
多属性决策方法增强决策
多属性决策方法
多属性决策方法结合了层次分析法(AHP)及优劣解距离法(TOPSIS)
决策树
与状态机类似,通过自顶向下的“轮询”机制进行驾驶策略搜索
该类模型同样无法考虑交通环境中存在的不确定性因素。