走进AI(三) | 解构 NLP
2024-01-04 16:13:43 0 举报
AI智能生成
登录查看完整内容
解构 NLP 的演变过程
作者其他创作
大纲/内容
定义
统计模型:不通用、维度多、表示能力弱
架构演进:N个任务模型->1个预训练模型
简述发展历程
从统计学习->深度学习
基础
训练方法:观其伴,只其义
优点
不足
Word2Vec(词向量)
静态词向量预训练
NN(Neural Networks 神经网络):一种基于节点和边的架构,边的权重和对于节点的输入输出构成神经网络的架构。
FNN(前馈神经网络):一种最简单的神经网络,CNN/RNN 都是基于此模型扩展的
CNN(卷积神经网络):适合空间建模,用于图像
RNN(循环神经网络)模型:能够捕捉序列之间的依赖关系,适合时间建模,用于自然语言
LSTM(长短期记忆网络)模型:解决上下文重要性区分的问题,通过门控机制,有选择的记住和忘记
一个基于attention的encoder-decoder(多层堆叠)结构的seq2seq模型
Self-Attention(自注意力机制) :Q-K-V 机制 => 捕捉上下文关系
Transformer模型:解决了输入序列只能串行处理不能并行处理的问题,擅长处理长文本。
基础模型
ELMO(2018):基于双层的双向LSTM模型 - 效率低
动态词向量预训练
预训练模型
生成式的大模型大多采用Decoder-only架构,因在工程链路或者训练效率方面比较高。
采用Decoder-only架构
采用Encoder-Decoder架构
技术路线
Scaling Laws(2022.1):LLM三要素【算力,数据规模,参数规模】任意一项指数增长,都会带来模型性能的线性提升,贡献:参数规模>数据规模>算力。
GPT1:采用 pretrain + finetune 方案
GPT2:采用 pretrain + prompt 方案,处理下游任务时无需微调
GPT3:采用 pretrain + prompt 方案,大模型+大数据,可以带来突变的模型效果
GPT4:输入变宽,支持多模态(加入图像),安全性,推理能力更强,效果优于大部分微调模型
pipline并行:拆权重 - 异步操作
Tensor并行:拆权重&数据 - 同步操作,消耗带宽
数据并行:复制权重&拆数据 - 异步操作
高性能计算手段
实际会叠加使用,采用混合并行
即系
OpenAI的GPT系列:生成式预训练Transformer模型,使用Transformer的Decoder模型
谷歌的BERT系列:使用Transformer的Encoder模型
AI能进行推理吗?
为什么训练的模型要很大,参数巨多?
能理解人类意图/遵守人类的价值观?
疑问
LLM(大规模语言模型)
NLP(Natural Language Processing 自然语言处理)
0 条评论
回复 删除
下一页