走进AI(三) | 解构 LLM
2025-03-05 18:03:04   0  举报             
     
         
 AI智能生成
  解构 NLP 的演变过程
    作者其他创作
 大纲/内容
  Pre-training 预训练:获得通用知识    
     预训练模型演进    
     静态词向量预训练    
     Word2Vec(词向量)     
     训练方法:观其伴,只其义  
     优点  
     不足  
     动态词向量预训练    
     基础模型    
     FNN(前馈神经网络):一种最简单的神经网络,CNN/RNN 都是基于此模型扩展的  
     CNN(卷积神经网络):适合空间建模,用于图像  
     RNN(循环神经网络)模型:能够捕捉序列之间的依赖关系,适合时间建模,用于自然语言  
     LSTM(长短期记忆网络)模型:解决上下文重要性区分的问题,通过门控机制,有选择的记住和忘记  
     ELMO(2018):基于双层的双向LSTM模型 - 效率低  
     Transformer模型:解决了输入序列只能串行处理不能并行处理的问题,擅长处理长文本。    
     一个基于attention的encoder-decoder(多层堆叠)结构的seq2seq模型  
     Self-Attention(自注意力机制) :Q-K-V 机制  => 捕捉上下文关系  
     注意:Transformer 是目前人工智能领域最广泛流行的架构,被用在各个领域,但并不是最先进的  
     预训练步骤    
     1. 数据处理流程  
     2. 技术架构选择    
     采用Decoder-only架构:OpenAI的GPT系列  
     采用Encoder-Decoder架构:T5  
     采用Encoder-only架构:谷歌的BERT系列  
     3. 预训练技术    
     遮罩语言建模(Masked Language Modeling, MLM):完形填空  
     下一句话预测(Next Sentence Prediction, NSP):优化 LLM 理解文本流和连贯性,让它生成更连贯的对话。  
     去噪自动编码器 (Denoising Autoencoders,DAEs):训练 LLM “清理”文本,重建原始版本,学习语言的通用模式,优化句子的连贯性和一致性。  
     参考文档    
     Pre-training in LLM Development  
     NLP(Natural Language Processing 自然语言处理) 基础
    
     定义  
     简述发展历程    
     统计模型:不通用、维度多、表示能力弱  
     架构演进:N个任务模型 -> 1个预训练模型  
     LLM(大规模语言模型)    
      AI 摩尔定律-Scaling Laws(2022.1):LLM三要素【算力,数据规模,参数规模】任意一项指数增长,都会带来模型性能的线性提升,贡献:参数规模>数据规模>算力。
  
     提出问题    
     生成式语言大模型的本质是什么?补全&续写:根据上文,猜(概率的)下一个词 ,进行“文字接龙”
  
     AI能进行推理吗?CoT(思维链)  
     为什么训练的模型要很大,参数巨多?  
     为什么提示时最好给几个示例?Few-shot > One-shot > Zero-shot  
     大模型有什么硬伤缺陷吗?
    
     并非知晓一切  
     没有「真逻辑」  
     GPT系列:生成式预训练Transformer模型,使用Transformer的Decoder模型    
     GPT1:采用 pretrain + finetune 方案
  
     GPT2:采用 pretrain + prompt 方案,无需微调 主打 zero-shot , 证明模型越大效果越好  
     GPT3:采用 pretrain + prompt 方案,无需微调 主打 few-shot,证明“大模型+大数据”可以涌现突变的模型效果  
     GPT4:输入变宽,支持多模态(加入图像),安全性,推理能力更强,效果优于大部分微调模型  
     GPT4V:具备了多模态场景下遵循图文指令的能力  
     高性能计算手段    
     pipline并行:拆权重 - 异步操作  
     Tensor并行:拆权重&数据 - 同步操作,消耗带宽  
     数据并行:复制权重&拆数据 - 异步操作  
     GPT 可视化神器 LLM Visualization 解读  
     如何优化LLM?常见方法有提示工程、RAG、微调    
     提示词  
     RAG  
     Fine-tuning 微调
  
     应用模式  
    
 
 
 
 
  0 条评论
 下一页