首页  思维导图  详情

走进AI(三) | 解构 LLM

2025-03-05 18:03:04   0  举报





AI智能生成

解构 NLP 的演变过程

作者其他创作

大纲/内容

Pre-training 预训练：获得通用知识

预训练模型演进

静态词向量预训练

Word2Vec(词向量)

训练方法：观其伴，只其义

优点

不足

动态词向量预训练

基础模型

FNN(前馈神经网络)：一种最简单的神经网络，CNN/RNN 都是基于此模型扩展的

CNN(卷积神经网络)：适合空间建模，用于图像

RNN(循环神经网络)模型：能够捕捉序列之间的依赖关系，适合时间建模，用于自然语言

LSTM(长短期记忆网络)模型：解决上下文重要性区分的问题，通过门控机制，有选择的记住和忘记

ELMO(2018)：基于双层的双向LSTM模型 - 效率低

Transformer模型：解决了输入序列只能串行处理不能并行处理的问题，擅长处理长文本。

一个基于attention的encoder-decoder(多层堆叠)结构的seq2seq模型

Self-Attention(自注意力机制) ：Q-K-V 机制 => 捕捉上下文关系

注意：Transformer 是目前人工智能领域最广泛流行的架构，被用在各个领域，但并不是最先进的

预训练步骤

1. 数据处理流程

2. 技术架构选择

采用Decoder-only架构：OpenAI的GPT系列

采用Encoder-Decoder架构：T5

采用Encoder-only架构：谷歌的BERT系列

3. 预训练技术

遮罩语言建模（Masked Language Modeling, MLM）：完形填空

下一句话预测（Next Sentence Prediction, NSP）：优化 LLM 理解文本流和连贯性，让它生成更连贯的对话。

去噪自动编码器（Denoising Autoencoders，DAEs）：训练 LLM “清理”文本，重建原始版本，学习语言的通用模式，优化句子的连贯性和一致性。

参考文档

Pre-training in LLM Development

NLP(Natural Language Processing 自然语言处理) 基础

定义

简述发展历程

统计模型：不通用、维度多、表示能力弱

架构演进：N个任务模型 -> 1个预训练模型

LLM(大规模语言模型)

AI 摩尔定律-Scaling Laws(2022.1)：LLM三要素【算力，数据规模，参数规模】任意一项指数增长，都会带来模型性能的线性提升，贡献：参数规模>数据规模>算力。

提出问题

生成式语言大模型的本质是什么？补全&续写：根据上文，猜（概率的）下一个词，进行“文字接龙”

AI能进行推理吗？CoT(思维链)

为什么训练的模型要很大，参数巨多？

为什么提示时最好给几个示例？Few-shot > One-shot > Zero-shot

大模型有什么硬伤缺陷吗？

并非知晓一切

没有「真逻辑」

GPT系列：生成式预训练Transformer模型，使用Transformer的Decoder模型

GPT1：采用 pretrain + finetune 方案

GPT2：采用 pretrain + prompt 方案，无需微调主打 zero-shot ，证明模型越大效果越好

GPT3：采用 pretrain + prompt 方案，无需微调主打 few-shot，证明“大模型+大数据”可以涌现突变的模型效果

GPT4：输入变宽，支持多模态（加入图像），安全性，推理能力更强，效果优于大部分微调模型

GPT4V：具备了多模态场景下遵循图文指令的能力

高性能计算手段

pipline并行：拆权重 - 异步操作

Tensor并行：拆权重&数据 - 同步操作，消耗带宽

数据并行：复制权重&拆数据 - 异步操作

GPT 可视化神器 LLM Visualization 解读

如何优化LLM？常见方法有提示工程、RAG、微调

提示词

RAG

Fine-tuning 微调

应用模式

 收藏

立即使用

职场白皮书

 收藏

立即使用

情绪&沟通

 收藏

立即使用

走进 AI | 引言-大航海时代的开启

 收藏

立即使用

AI 技术| MCP

发光的金子

职业：攻城狮

去主页





0 条评论

下一页

为你推荐

查看更多



agent vs llm对比

AI人工智能 · AI大模型通用技术架构图