传统方法
首先从输入图片中提取特征,再将这些特征<b><font color="#000000">与已有的3D模型匹配</font></b>,最后通过<br>Perspective-n-Point(<b><font color="#000000">PnP</font></b>)算法建立2D-3D坐标的对应关系,从而估计目标物体的6D位姿。<br><font color="#ff0000">基于特征匹配的位姿估计方法</font>速度快、鲁棒性好,然而,对于弱纹理物体或者物体间遮挡严重时,<br>基于特征匹配的方法往往会失败
<font color="#ff0000">基于模板匹配的方法</font>常用来处理<b>低纹理的物体</b>,Hausdorf和Hsiao等提出通过不同距离的策略<br>匹配输入图片和3D模型,但是当场景<b>混叠</b>或者物体表面<b>发生形变</b>时,基于模板匹配的方法会失败
基于深度卷积网络(CNN)的<br>6D位姿估计算法
<font color="#ff0000">基于CNN直接从RGB图片中估计物体6D位姿</font>。Kendall等基于CNN结构提出<b><font color="#000000">PoseNet(2015)</font></b>,直接从RGB图回归6D相机位姿;Xiang等人通过聚类模型的3D特征,估计物体6D位姿;Mousavian等人通过单一视图的几何约束,估计3D物体参数并恢复6D位姿;<br>Wadim等人基于SSD框架提出<b><font color="#000000">SSD-6D(2017)</font></b>,通过InceptionV4分支将输入映射为6个不同尺度的特征图,再分别与大小为(4+C+V+R)的卷积核进行卷积,以确定类别、2D边界框、视觉点和平面旋转角度,再通过映射关系获取6D位姿;<br>商汤科技针对背景简单、无遮挡的情况,利用二维图片合成的方法扩充训练集,再基于弱监督算法估计物体6D位姿(2018),IoU值为0.67,效果不好。然而,由于搜索空间大,直接定位物体比较困难,且实时性差。
<font color="#ff0000" style="font-size: inherit;">基于关键点检测将任务解耦为两个阶段:先检测2D图片中物体的关键点坐标,再通过PnP算法估计6D位姿。</font><span style="font-size: inherit;">M.Rad等人先利用分割算法确定输入RGB图片中包含物体的区域,再从分割区域中检测关键点坐标;受2D人体姿态估计的驱动,Pavlakos等提出通过输出关键点的像素级热力图,解决物体间遮挡问题;Tekin等人通过YOLO网络同时检测物体并估计其6D位姿;浙江大学的彭思达等人提出了</span><b style="font-size: inherit;"><font color="#000000">PVNet(2019CVPR)</font></b><span style="font-size: inherit;">,先检测出物体的可见部分,其上的每个像素预测一个指向物体关键点的方向向量,再利用RANSAC对关键点投票,最后与物体的3D模型匹配,估计其6D位姿;Yinlin Hu等提出<b><font color="#000000">(</font></b></span><b><font color="#000000">Segmentation-driven 6D Object Pose Estimation:2019CVPR</font></b><span style="font-size: inherit;"><b><font color="#000000">)</font></b>分割驱动的6D位姿估计算法,物体每个可见部分都会产生局部预测位姿,利用多个局部预测代替全局预测,算法的鲁棒性较好;Kiru Park等人针对无纹理物体提出<b><font color="#000000">Pix2Pose(2019ICCV oral)</font></b>,将物体3D模型坐标点转化为图片坐标中的R、G、B值,利用生成模型补全物体被遮挡部分,再通过预测彩色图建立2D-3D对应关系。然而,当处理低纹理物体或低分辨率图片时,基于关键点检测的方法性能下降较大,且不能实现端对端的优化。</span><br>