深度学习
2024-08-09 16:46:17 5 举报
AI智能生成
登录查看完整内容
深度学习思维导图
作者其他创作
大纲/内容
寻找特征
卷积
压缩数据
池化
加强特征
激活
非线性分类
全连接
概念
LeNet5
AlexNet
VGGNet
网络结构
具体参数
引入Inception结构,融合不同尺度的特征信息,由原本网络的串行结构,变为并行结构
添加两个辅助分类器帮助训练
使用1*1卷积核进行将为以及映射处理
丢弃全连接层,使用平均池化层,大大减少模型参数
GoogLeNet
梯度消失或梯度爆炸:反向传播过程中梯度的逐层传播所引起,层数越多越明显
退化问题(现象):随着网络层数的增加,深层网络的训练误差反而会增大,而不是减少。
BasicBlock模块,使用两个3x3卷积,适用ResNet18和ResNet34
Bottleneck模块,用所更深层ResNet网络
残差块
conv1:一个7x7卷积层,做最大池化
4个残差层,每一层具有不同数量的残差块
最后经过全连接层、平均池化等输出
总体网络各个层次
ResNet
卷积神经网络CNN
架构:输入经过Transformer的编码器和解码器后得到输出
自注意力层:生成K、V、Q矩阵,将K、V矩阵输入到解码器中
编码器
自注意力层:初始化Q、K、V矩阵,Q矩阵输入到后续的交叉注意力层
交叉注意力层:使用编码器输入的K、V矩阵和自己的Q矩阵做交叉注意力,生成新的词
自注意力层:使用新生成的词更新K、Q、V矩阵
解码器
Transformer框架
使用ht用来记录上一时刻信息,使用xt和ht-1进行下一时刻预测
RNN
除了ht以外,还有ct记录长期信息,使用xt、ht-1、ct-1进行下一时刻预测
长短期记忆网络(LSTM)
门控循环单元
循环神经网络RNN
激活函数:Sigmoid、ReLU、Tanh(同机器学习)
损失函数:均方误差MSE、交叉熵损失(同机器学习)
优化:梯度下降、Adam、RMSprop等
Dropout:随机扔掉一定比例的神经元
批量归一化BN:求均值μ和方差σ²后归一化
正则化:L1/L2正则化、Dropout、Batch Normalization
感知器和多层感知机
部分概念
查询Query:模型在处理当前时间步或位置时要关注的内容,可以看作是用来查询相关信息的向量
预训练模型
单头注意力机制:Single-Head Attention
多头注意力机制:Multi-Head Attention
自注意力机制Self-Attention:处理同一序列内部的注意力
交叉注意力机制Cross-Attention:处理不同序列之间的注意力,常用于编码器-解码器结构中
全局注意力机制Global-Attention:对所有位置进行注意力计算,适合捕捉全局依赖
局部注意力机制Local-Attention:限制注意力范围,适合处理长序列数据
注意力机制
神经网络:CNN、RNN/LSTM/GRU、GNN等
在线训练
键Key:所有可能与查询相关的内容的表示,用来与查询匹配的向量
值Value:实际信息或内容,与每个键相关联。在计算注意力时,使用权重加权这些值,得到最终的输出。
对于一句话假设输入有其中两个单词:Thinking、Machines
根据使用的预训练模型,得到单词词向量Embedding和向量矩阵Wq、Wq、Wv
根据词向量和向量矩阵点乘计算的到每个单词的Q、K、V
遍历每个单词q,与别的单词k相乘
乘积/√(k维度),减小数值,防止softmax差距过大
每个softmax后的值与V相乘相加得到z
至此,每个词的得到的新的词向量z,包含了该词与别的词之间的关系
自注意力机制
M :掩码矩阵,具有与Q*KT相同的维度
掩码自注意力机制
将输入X分割成n个Embedding,得到n个Q、K、V,求出Z后拼接成一个新的向量
多头注意力机制
交叉注意力机制
pos表示词在序列中的位置,从0开始。dmodel表示词嵌入的维度。i 表示词嵌入的维度索引。PE为位置编码矩阵。
位置编码公式
深度学习
0 条评论
回复 删除
下一页