Hessian Matrix是对称矩阵,可以分解为一组实特征值和特征向量的正交
特定方向<b><i>d</i></b> 上的二阶导数可以写成dTHd。
当d是H的一个特征值时,这个方向的二阶导数就是对应的特征值
其他方向,方向二阶导数是所有特征值的加权平均,与d夹角越小的特征向量具有越大的权重
最大特征值确定最大二阶导数
最小特征值确定最小二阶导数
通过(方向)二阶导数可以预期一个梯度下降步骤能表现的多好
对f(x)在当前点进行二阶泰勒展开并将附近的搜索点代入
搜索点可以表示为三项之和
函数原始值
函数曲率导致的校正
这一项如果太大,梯度下降可能是向上移动的
gTHg小于等于0时,增加学习率将永远导致f下降
但学习率大的时候泰勒展开不准确,因此需要采取更加启发式的选择
目标函数能用二次函数很好地近似的情况下,Hessian的特征值决定了学习率的量级
二阶导数还可以用于确定一个临界点是否是局部极值点,或者是鞍点
f'(x)=0, f"(x)<0 -> 局部极大值点
f'(x)=0, f"(x)>0 -> 局部极小值点
f'(x)=0, f"(x)=0 -> 无法确定,可以是一个鞍点或平坦区域的一部分
多维的情况下,需要检测函数的所有二阶导数
用牛顿法等信息指导搜索方法解决Hessian矩阵的条件数很差时梯度下降法表现差的问题
该方法适用于局部极值点附近的收敛,但是无法解决鞍点附近的跳出