Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations
2016-08-25 15:33:12 0 举报
AI智能生成
Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations
作者其他创作
大纲/内容
摘要
开端:DBN是无监督的层次生成模型
缺点:DBN无法处理全尺寸,高维图像数据
图像维度搞,需要合理建模,计算简便
对象常常出现在任意局部,要求特征表示对输入的局部变换具有不变性
目标:提出卷积DBN,可以处理真实图像大小的层次生成模型
平移不变性
支持由下到上和由上到下的概率推理
关键是概率最大池化:使用概率方法缩小高层表示的新技术
引言
视觉世界:像素强度、边缘、局部目标、整体目标
“深层”表示可以学习特征探测器的层次结构
低层可支持目标检测
高层可解决低层的语义模糊或者推断隐藏的目标局部位置
DBN已被应用到各个领域去学习高层结构,包括手写数字和MOCAP,文章建立在DBN基础上,希望通过无监督方式学到图像的生成模型
卷积DBN优点
图像的所有位置都共享特征探测器,因为可以捕获到重要特征的探测器在图像的其他地方也同样有效,因此模型能够用少量特征检测器对大图像进行特征表示
卷积RBM的关键
概率最大池化(probabilistic max pooling):是高层单元覆盖更大区域的概率方法
准备工作
限制玻尔兹曼机
双层、二部图、无向图、二值隐单元,二值或者实值可见单元
给定可见层,则隐藏层各单元条件独立,反之亦然
二值层的单元是独立伯努利随机变量;如果可见单元是实值的,则为具有对角协方差矩阵的高斯分布
深度信念网络
RBM受限于他所能代表的,当RBM叠加组成DBN便能体现出RBM的真正能力
DBN的每一层是一系列的二值或者实值单元
训练方法是逐层贪婪训练(greedily training each layer从低到高)
算法
动机
RBM与DBN都忽视了2D结构的图像,学习给定特征的权重必须为每个位置单独学习;然而卷积DBN能够为每一个局部位置共享权重,比较高效
CRBM模型
类似RBM,但是图像每个位置的V和H共享
隐藏层包含K组,每组都是二值单元,并且与一个滤波器关联
一组里面的所有隐单元的滤波器权重共享
每一组隐单元有一个偏置,所有的课件单元共享一个偏置
能量函数
第k组接受由V的由下往上信号
吉布斯采样构成了推理和学习算法的基础
概率最大池化
CNN的简介
探测层:通过对上一层卷积得到
池化层:通过常量因子缩小探测层的表示
具体描述:每一个池化层单元计算探测层一个小区域单元最大激活,通过最大池化缩放特征表示可以让高层表示具有转移不变性和降低计算负担
最大池化仅仅用于前馈结构中。但是文章模型对图像的生成模型感兴趣,并且能支持由上到下和由下到上的推理。因此设计了一个包含类似最大池化行为的生成模型
文章池化规则:探测单元和池化单元的连接需要遵循一些限制:最多有一个探测单元是激活状态,池化单元当且仅当一个探测单元是激活的时候才处于激活状态
注意CRBM中隐单元的激活和池化层激活是同时进行的,并且由于上述限制(隐单元被池化的块至多一个单元被激活)得到池化单元只有当隐层被池化的块大小部分全0才不被激活即,p(p=0|v)=1-p(h=1|v)。具体看文章公式
稀疏正则化约束
模型是超完备的(overcomplete)
因为特征表示比输入大小大得多
超完备模型具有学习到平凡解的风险,比如特征探测器代表单个像素
解决方案就是稀疏化特征表示
普遍方法是强制特征表示“稀疏”,因为仅仅单元的一极小部分在给定刺激下被激活
文章方法是正则化目标函数,使得每一个隐单元具有接近某个小常量的均值激活
CDBN
类似DBN分层贪婪训练(greedy;layer-wise)
仅有两个偏置:分别是两个隐藏层
探测层是接受由V从下往上的信号,池化层是接受由H'隐单元由上往下的信号
能量函数
第一层隐藏层H接受由V的从下往上信号
第一层池化层接受由H'从上往下的信号
条件概率即激活函数
讨论
本文模型层间无向连接。Hinton在06年提出的是顶层无向连接,底层是由上往下的有向连接。辛顿提出了使用单个由下往上的通道逼近后验信息,前馈方法对于图像无闭塞或者模糊信息比较有效,但是高层无法解决低层的模糊信息,吉布斯采样在层与层之间不条件独立的时候比较困难。相反,文章使用无向边有效结合了由下往上和由上往下的信息
本文方法中,概率最大池化能够通过减少更高层来解决可测量性,权重共享极大加快了算法。比如,在一个三层网络中,使用权重共享但是没有最大池化将会慢10倍,没有权重共享就会慢100倍左右。
Bengio在08年将卷积权重共享用到RBM,并且在小图像上做了实验。本文的工作是构建了更复杂的元素,比如概率最大池化,使得算法具有更好地可扩展性(scalable)
实验结果
测试自然图像的结果
与前人的工作一致
稀疏正则项对于学习朝向边缘滤波是必须得,去掉以后就无法提取朝向边缘了
第一层学习朝向边缘,第二层是外形,角度,表面边缘
自学习方法
定义:一般未标记类别的数据能在无监督学习任务上提高性能
其他的文章中用稀疏编码训练单层表示,然后为无监督学习任务构建特征
本文用双层CDBN做相同工作。CDBN学习到了图像更高的总体表示
手写数字分类
连接第一层和第二层提取出的特征向量,然后用SVM分类器
目标局部信息的无监督学习
学习局部特征
分层概率推断
复原图像
结论
文章提出CRBM,可扩展性高,可以学习无标签图像的层次表示,并且模型对视觉识别任务也表现良好。
作者相信这个方法能够作为一种可扩展性方法,去学习高维,复杂数据的层次表示
0 条评论
下一页