前馈神经网络(全连接层)
Input
Encoder2
Wn
Encoder1
Positional Encoding
归一化输入和输出
Encoder由多个Transformer block组成
W1
W2
Linear
W3
AngerHappySadHate
Add & Layer Normalization
......
多头注意力机制
Encoder12
InputEmbedding
Multi-Head Attention
Encoder11
Feed-Forward Network
增加非线性能力
softmax
…