sequence to sequence
2017-03-06 20:14:00 0 举报
AI智能生成
Sequence to sequence(Seq2Seq)是一种广泛应用于自然语言处理和机器学习任务中的深度学习模型。其基本思想是将一个序列映射到另一个序列,例如将英文句子翻译成中文。Seq2Seq模型由两部分组成:编码器和解码器。编码器将输入序列编码成一个固定长度的向量,解码器将该向量解码成目标序列。这种模型在机器翻译、语音识别、文本摘要等领域有着广泛的应用。Seq2Seq模型的训练通常使用循环神经网络(RNN)或者长短期记忆网络(LSTM),这些网络能够捕捉输入序列中的长期依赖关系。总的来说,Seq2Seq模型是一种强大的工具,可以帮助我们处理各种复杂的序列到序列的转换任务。
作者其他创作
大纲/内容
结构 
Pointer Networks

sequence to sequence 
文献sequence to sequence


文献pointer networks
P为输入;
C为输出;
P;θ为由输入得到的隐层状态向量;
m(P)为目标序列长度;
Pointer Networks
e为输入encoder后的隐藏状态;
d为decoder的隐层状态;
W1,W2为各自权重
p为输入;C为输出
d为decoder的隐层状态;
W1,W2为各自权重
p为输入;C为输出
sequence to sequence
文献sequence to sequence
xt为输入;
V为由输入得到的隐层状态向量;
yt为输出;
T'为输出序列长度;
V为由输入得到的隐层状态向量;
yt为输出;
T'为输出序列长度;
文献pointer networks
P为输入;
C为输出;
P;θ为由输入得到的隐层状态向量;
m(P)为目标序列长度;
attention model
每一个输入encoder后对输出di的的影响
文献pointer networks

例子:attention相当于影响力模型,即输入的每个元素对目标输出元素的影响


encoder to decoder 


文献pointer networks
e为输入encoder后的隐藏状态;
d为decoder的隐层状态;
W1,W2为各自权重
d为decoder的隐层状态;
W1,W2为各自权重
例子:attention相当于影响力模型,即输入的每个元素对目标输出元素的影响
y为输出;
X为输入序列;
si为yidecode中间隐层状态;
ci为由attention得到的各输入元素对yi的影响;
g(),f()均为非线性变化函数(激活函数);
X为输入序列;
si为yidecode中间隐层状态;
ci为由attention得到的各输入元素对yi的影响;
g(),f()均为非线性变化函数(激活函数);
encoder to decoder
无Attention机制时;
h为encoder隐层状态;
s为decoder隐层状态;
f(),q(),g()均为非线性变化函数;
h为encoder隐层状态;
s为decoder隐层状态;
f(),q(),g()均为非线性变化函数;
有无attention对比
f是decoder的非线性变换函数
语义编码C是由句子X的每个单词经过Encoder 编码产生的,
对于y1,y2和y3,句子X中任意单词对生成某个目标单词yi来说影响力都是相同
语义编码C是由句子X的每个单词经过Encoder 编码产生的,
对于y1,y2和y3,句子X中任意单词对生成某个目标单词yi来说影响力都是相同
LSTM(时间递归神经网络)
模型
遗忘门
记忆细胞
输入门
输出门
取sigmoid函数,取值范围:(0,1)
可以看到当it=0(输入门关闭),ft=1(遗忘门打开)时;记忆单元的信息可一直保持
可以看到当it=0(输入门关闭),ft=1(遗忘门打开)时;记忆单元的信息可一直保持
o为全开;
I为全闭;
I为全闭;
全连接神经网络
0 条评论
下一页