大模型
2025-05-19 01:57:19 1 举报
文本处理,Transformers架构流程图
作者其他创作
大纲/内容
“我爱吃苹果” 翻译成英文
吃
提供关系性语义
提供词通用语义
爱
...
苹果
只关注自己和之前的token
“我”与“爱”关系密切
前馈神经网络
多层堆叠机制
“爱”与“苹果”关联强
句子
目标序列
逐词预测
组合向量
目标序列向量
苹果更依赖“吃”
最关注自己
解码器
嵌入层
较关注其他
段落
大模型
词深层语义
我
解码-编码器注意力
I
高层次
2
句子结构
编码器输出向量
词
情感、正向含义
“吃”与“苹果”关联强
确保逻辑性
动作、消费
苹果是甜的
第一人称代词
<start> I
子句
表示上下文
嵌入向量
低层次
<start> I love
预测词
提供词深层语义
6次
自注意力
短语
eat
确保一致性
预测概率
love
编码器
1
篇章
词表
注意力机制
<start>
水果
0 条评论
下一页