MoE混合专家模型
2025-03-25 17:33:04   2  举报             
     
         
 本作品展示的是混合专家模型(MoE,Mixture of Experts)的典型结构:将 Transformer 中的前馈网络 (FFN) 层替换为由门控网络和多个专家组成的 MoE 层。
    作者其他创作
 大纲/内容
 p=0.65
  y2
  p=0.8
  MoE 模型的典型架构(参考自:Google 的 Switch Transformers)
  x
  y1
  残差连接和归一层
  位置嵌入
  FFN1
  FFN2
  FFN3
  FFN4
  y
  Router
  动态切换的前馈网络层(Switching FFN Layer)
  自注意力
  Parameters
  x2
  x1
  混合专家模型(MoE)
  More
  该混合专家模型 (MoE,Mixture of Experts) 架构:将 Transformer 中的前馈网络 (FFN) 层替换为由门控网络和多个专家组成的 MoE 层。
   
 
 
 
 
  0 条评论
 下一页