深度学习整理
2021-05-06 11:11:44 3 举报
AI智能生成
登录查看完整内容
为你推荐
查看更多
深度学习基础,神经网络原理、优化技巧及经典CV应用
作者其他创作
大纲/内容
输入层
没有隐层
少量隐层
隐层较多
隐藏层
输出层
组成
进行非线性变换,若不加激活函数,则还是线性网络
激活函数
平均绝对误差MAE
均方误差MSE
Smooth L1 Loss
Loss分类
回归loss
先计算Softmax回归,再计算预测类别概率的交叉熵
交叉熵损失
hinge loss
SVM合页损失
具有不对称性,从而引入JS散度(对称)
KL散度
分类loss
Loss函数
损失函数
BP算法
反向传播算法BP
优化算法
梯度下降算法
训练
神经网络
把输入数据各个维度都中心化为0
去均值
幅度归一化到同样的范围
归一化
数据输入层
卷积核将图片的局部区域连接在一起
局部连接
卷积核滑动计算时,共享同一组权重(偏置)参数
参数共享
depth维度代表卷积核个数,互不共享参数,计算得到的特征图也用矩阵的形式表示
深度表达
特点
1*1卷积
用多个小卷积核代替大卷积核
普通卷积
转置卷积
双线性插值
反卷积
反池化
上采样方法
分类
卷积层
Sigmoid
Tanh
ReLU
Leaky ReLU
激活函数的选择
激活层
Max Pooling
Average Pooling
作用
池化层
两层之间所有神经元都有权重连接,激活函数一般为Softmax
全连接层
CNN层级结构
层级结构
卷积神经网络CNN
引入记忆的概念,输出取决于输入和记忆
网络结构
超级简易版
反向传播算法BPTT
梯度爆炸和梯度消失
基本模型
输出不仅取决于之前的数据,还取决于之后的数据
双向RNN
双向深层RNN
多种RNN
两个状态三个门
LSTM超详解
长短时记忆网络LSTM
一个状态两个门
GRU
RNN变体
RNN主要用于自然语言处理,生成序列,机器翻译,看图说话,语音处理
RNN超详解
循环神经网络
主要用于语句情感分析,但数据标注费时费力
递归神经网络
两个RNN
在确定了最优判别器之后,生成器的实质为优化两个分布的JS散度
GAN交叉熵损失
散度函数f=(t-1)^2的情况
LSGAN的LS距离
基于IPM的距离度量
权重修剪,满足L条件
WGAN的EM距离
目标函数
DCGAN
深度CNN结构
多对GAN或者一个GAN内分阶段生成
用AE作为判别器度量重构误差
自编码器结构
模型结构
为何用EM距离取代交叉熵
经典交叉熵损失存在的问题
实际训练的参数达不到纳什均衡
极大极小问题导致模式崩塌
训练困难
特征匹配
标签平滑
谱归一化
PatchGAN
多个生成器一个判别器
其他
训练技巧
训练障碍及解决办法
基本原理
CGAN
ACGAN
InfoGAN
在隐变量中加约束
WGAN
LSGAN
改变度量方式
SimGAN
两步生成
传统生成对抗网络
pix2pix
CycleGAN
UNIT
两个域
StarGAN
MUNIT
多个域
图像翻译网络
改进方向
模型
风格迁移
图像增强
图像合成
零样本学习
域适应
应用趋势
生成对抗网络GAN
数据降维
去噪编码器
应用
原始自编码器AE
VAE
变分自编码器VAE
自编码器
预训练
高斯分布初始化
均匀分布初始化
各层的激活值和梯度的方差在传播过程中保持一致,这个被称为Glorot条件。
Xavier初始化
He初始化
随机初始化
初始化实验
初始值过大或过小带来的问题
各种初始化
初始化
1、零均值 2、方差归一化
输入归一化
1、求均值 2、求标准差 3、一个batch内归一化
加快训练速度
防止梯度消失
防止过拟合
优点
batch很小时效果不好
适用于深度固定的神经网络,对RNN无效
缺点
需要对两个平衡因子分别求导,以及对归一化之前的数据求导
反向传播
批归一化(BN)
对同一层神经元的输入进行归一化,不同的输入样本有不同的均值和方差
层归一化(LN)
对每个样本进行归一化,注重单个样本分布的均匀和独立,适用于图像风格化
实例归一化(IN)
在BN的基础上,将channel分为group,每个group内归一化,解除batchsize的影响
组归一化(GN)
各种归一化
扩充训练集
噪声增强
输入端
L1/L2正则化
公式及两种范数的特征
L1/L2范数正则化
作用原理
dropout原理
Dropout
BN和Dropout一起使用时会产生负面影响
BN层
模型上
早停
特征选择/降维
训练策略
各种正则化
过拟合解决方法
不合适的激活函数
初始化权值过大
产生原因
用其他激活函数替换sigmoid
利用BN将分布变换到激活函数敏感的区域
适当减少层数,可以引入残差的直连结构
解决方案
梯度消失和爆炸
优化技巧/常问问题
理论基础
同时解决定位和识别的多任务学习
滑窗法
选择性搜索
1、先选定一系列候选框
非极大值抑制
IOU
AP
AP/mAP
2、对候选框进行解析分类
选择搜索2000个候选框
在预训练的Alexnet上微调,改为21分类,获得每个候选框的特征向量
用SVM对特征向量进行分类,输出每个候选框的分类得分,再用非极大值抑制筛选
训练回归器,输入特征向量,输出x和y方向的缩放和平移,实现边框修正
R-CNN
原图输入CNN卷积层得到特征图,以及候选框对应的特征图
RoI Pooling Layer对每个候选特征框提取同样大小的输出
SVD分解加快速度
更新参数
分类和回归并行计算
细节分析
改进
不足
Fast R-CNN
原图输入CNN卷积层得到特征图
回归计算?
RPN
利用RPN网络通过特征图得到候选框的特征框
后续同样用RoI Pooling Layer,最后分类和回归并行计算
Faster R-CNN
RPN搜索候选框
RoI Align确定候选框特征
对候选框并行进行分类、回归和mask生成
将目标检测和语义分割结合
Mask R-CNN
主要是缓解Faster R-CNN的mismatch问题
采用多级联结构,每一级有不同的权重
逐stage提高proposal的IoU值,从而使得前一个stage重新采样过的proposals能够适应下一个有更高阈值的stage
Cascade R-CNN
网络模型
R-CNN优缺点
两阶段
将图片reshape成同样大小输入
利用CNN网络得到预测框的分类置信度和回归值
利用NMS筛选预测框
YOLO v1
沿用RPN,先设置anchors,再做回归训练
利用K均值聚类筛选anchors
改为预测候选框的偏移量
高分辨率分类器
添加了一个passthrough layer层
分辨率的加强
主要改进
放弃dropout,卷积层之间使用BN归一化,更准确
新的分类CNN结构-DarkNet19,更快
将预测边框的中心约束在特定网格内
在训练网络时,每训练10个batch,网络就会随机选择另一种size的输入
其他技巧
YOLO v2
新的网络结构DarkNet-53,引入残差结构
借鉴FPN,利用上采样得到多尺度特征(三种)
设计9种尺度的预测框
结构改进
采用logistic计算分类预测,支持多标签
预测框的偏移量,使bbox更可控
提出GIoU计算回归损失
YOLO v3
YOLO系列
YOLO v1优缺点
在保持速度的基础上,实现了更快更准
实现了速度和准确率的平衡,加强了对小物体的识别性能
借鉴了FPN,在不同尺度的特征图上做检测
和anchor的区别
借鉴了anchor机制,提出prior box
将不同特征图的结果组合得到预测结果
结构特点
优缺点
SSD
一阶段
检测图像中三个关键点,两个角点加一个中心点
缺点:当目标重合的时候,中心关键点也会重合,导致检测结果有遗漏
CenterNet
Anchor-free系列
目标检测
正确分类样本占总样本比例
准确率
根据TP/TN/FP/FN计算,每个类别预测情况的记录
混淆矩阵
精确率precision
召回率recall
指标
取P=R时的平衡点值,越大越好
曲线越往右上越好
曲线下方的面积大小,越大越好
计算F1-score,值越大越好
评价方式
PR曲线
固定不同的分类阈值,测试假正类率和真正类率(召回率)
绘图方式
ROC曲线越接近左上角,该分类器的性能越好
AUC,ROC曲线下方面积
适用于样本不均衡
ROC曲线
评价指标
1995年提出,用于手写字符识别
LeNet
2012年提出,引入dropout、relu
AlexNet
2014年亚军,全部使用3*3的小卷积核,通过加深网络结构来提升性能,引入多尺度训练
VGGNet
Inception
Inception V2
Inception V3
Inception V4
2014年冠军
GoogLeNet
通道数问题
2015年提出,引入残差表示,恒等映射x+f(x),更强劲地提取特征
ResNet
2017CVPRBestPaper,将每一层卷积后的特征都加起来
DenseNet
ImageNet 2017冠军,在channels的维度上加入attention机制,压缩和提取
SENet
典型CNN结构
迁移学习
数据生成
主动学习
小样本
数据采样达到均衡
focal loss
对类别设置优化权重
样本不均衡
应用难点
设置权重
特征融合
网络更深,特征图更大
目标分类
目标检测的小物体
行人重识别的姿态生成
分类任务的小样本扩充
图像生成
目标分割
目标跟踪
CV应用领域
基于内容
基于用户
协同过滤
混合推荐
推荐系统
深度学习
0 条评论
回复 删除
下一页