训练<br>让模型通过数据学习参数
预训练<br><br>是什么:在海量通用数据(网页、书籍、代码等)上做基础学习,让模型先具备“通识能力”(语言理解、知识记忆、推理雏形)。<br>应用场景:训练通用大模型底座(如聊天、写作、问答、代码的基础能力);通常由大厂或研究机构完成,小团队一般直接使用预训练好的底模。
RLHF(Reinforcement Learning from Human Feedback):基于人类反馈的强化学习<br><br>是什么:先收集人类偏好(A回答比B好),再用强化学习优化模型,让输出更符合“人类觉得好”的方向。<br>应用场景:提升回答质量与安全性(更有帮助、少冒犯、少跑偏),常用于通用助手产品体验优化。
DPO(Direct Preference Optimization):直接偏好优化(用偏好数据直接优化模型)<br><br>是什么:同样利用“人类偏好数据”,但不走复杂强化学习流程,直接做偏好优化训练。可理解为 RLHF 的更简化/更稳定替代方案之一。<br>应用场景:希望用偏好数据快速提升“回答更符合人类偏好”时;在工程上常用于对齐阶段,训练成本和实现复杂度通常更友好。
FT (Fine-tuning) 微调<br>是什么:在已有大模型上,用特定领域数据再训练,让模型掌握垂直领域能力。SFT 其实是 FT 的一种常见形式。<br>应用场景:法律、医疗、金融、政务等专业问答;企业私有语料适配;让模型学会行业术语与流程。
SFT(Supervised Fine-Tuning):监督微调(用标注数据微调)<br><br>是什么:用“输入-标准答案”样本继续训练,让模型学会按你想要的风格和格式回答。<br>应用场景:客服话术统一、企业知识问答、固定格式输出(如JSON)、让模型更“听指令”。
LoRA / PEFT:低秩适配 / 参数高效微调(只训练少量参数)<br><br>是什么:不改全量参数,只训练少量新增/关键参数(如低秩适配器),显存和算力开销更低。LoRA 是 PEFT 的代表方法。<br>应用场景:资源有限时做领域适配;同一个底模做多个轻量“插件化”版本(不同部门/任务各一个 LoRA);快速迭代实验。
压缩优化<br>降低模型体积和计算开销的优化
量化<br>指的是:把模型里的数值(权重、激活值)从高精度表示(如 FP32/FP16)转换成低精度表示(如 INT8、INT4),从而减少显存占用和计算开销。<br><br>可以类比成图片压缩:<br>原图超清(细节多、体积大)<br>压缩图稍微糊一点(细节少一点、体积小很多)<br>模型也是一样:<br>好处:更省显存、更快、成本更低<br>代价:可能有一点点精度下降(回答偶尔没那么稳)<br><br>应用场景: <br>大模型部署跑不动时 显存不够放 FP16 模型,就量化到 8bit/4bit,让它先“能跑起来”。<br>本地跑 LLM 个人电脑只有普通显卡或内存有限,4bit/8bit 模型更容易本地运行。<br>手机/边缘设备实时推理 设备算力弱、电池敏感,量化后速度和功耗更友好。<br>在线服务高并发降成本 同样硬件能扛更多请求,延迟更低,云算力费用更省。<br>和蒸馏一起做模型压缩 先把模型“变小”(蒸馏),再“变省”(量化),适合对体积和性能都敏感的场景。
蒸馏<br><br>一种模型压缩技术,将大模型(教师模型)的知识迁移到小模型(学生模型)中,从而在保持性能的同时降低模型复杂度和计算成本<br><br>含义: 用大模型教小模型,压缩模型体积 <br>作用: 降低部署成本,提高推理速度
模型部署与推理
Inference <br><br>是模型上线后“做题/干活”的阶段,上线后执行模型计算<br>训练:学习知识(改参数)<br>推理:使用知识(不改参数)
Ollama<br>一个专注于在本地简单运行大模型的工具。它简化了模型的下载、管理和运行(尤其是量化版模型),<br>对个人开发者非常友好<br><br>含义: Ollama 本地运行大模型的工具 <br>场景: 离线使用、隐私保护、模型微调测试
vLLM<br><br>高性能,高吞吐大模型推理引擎大模型推理引擎,支持PagedAttention
PagedAttention<br>分页注意力机制(提升长上下文推理效率、节省显存)
ONNX:保证模型表示的一致性(跨框架、跨推理后端)