大语言模型LLaMa训练流程图
2023-12-13 10:23:40   0  举报             
     
         
 详细解释了大语言模型训练过程
    作者其他创作
 大纲/内容
 Language modelingpredict the next token
  Pretraining
  1-100 GPUsdays of training
  Stage
    Reward Modeling
  Reinforcement Learning
  init from SFTuse RM
  state of GPT
  In-context learning: 在不需要重新训练的情况下,通过自然语言指令,并带几个期望输出的样例,LLM就能够学习到这种输入输出关系,新的指令输入后,就能输出期望的输出。
  Step-by-step reasoning:通过思维链(chain-of-thought)提示策略,即把大任务分解成一步一步小任务,让模型think step by step得到最终答案。
  RM model
  initform
  SFT model
  Scaling:更多的模型参数、数据量和训练计算,可以有效提升模型效果。
  Notes
  Supervised Finetuning
  1-100 GPUsdays of training
  Model
  RL model
  Alignment tuning:对齐微调。为了避免模型输出一些不安全或者不符合人类正向价值观的回复,InstructGPT利用RLHF(reinforcement learning with human feedback)技术实现这一目的。
  Algorithm
  Instruction following:通过在多种任务数据集上进行指令微调(instruction tuning),LLM可以在没有见过的任务上,通过指令的形式表现良好,因此具有较好的泛化能力。
  Training:分布式训练策略及一些提升训练稳定性和效果的优化trick。另外还有GPT-4也提出去建立一些特殊的工程设施通过小模型的表现去预测大模型的表现(predictable scaling)。
  GPT Assistant training pipeline
  Reinforcement Learninggenerate tokens that maximize the reward
  LLM能力
  Dataset
  Binary classificationpredict rewards consistent weights preferences
  LLM技术
  Base Model
   
 
 
 
 
  0 条评论
 下一页