首页  思维导图  详情

AI产品经理要知道的 3种大模型优化方式

2024-04-08 13:18:30   0  举报





AI智能生成

AI产品经理要知道的3种大模型优化方式

AI产品经理

大模型

优化

微调

作者其他创作

大纲/内容

模型的分类

通用大模型

面向广泛场景，提供基础智能服务的模型。 如【GPT】【Claude】【文心一言】【通义千问】【云雀】

行业/领域 大模型

针对特定行业需求，定制化开发的模型，这一层次的模型相比通用大模型， 具有更专业的行业/领域知识，能够更好地处理领域内的特定问题。 如：子曰大模型，网易推出的“场景为先”的教育垂类大模型

企业大模型

在通用大模型或行业大模型的基础上，针对特定企业的独特需求、数据、 业务流程进行定制化开发和训练。 如：Salesforce Einstein：是一个集成在Salesforce平台上的AI助手，专门为销售预测、客户意向分析等CRM（客户关系管理）相关任务定制。

大模型优化 3种方法

为什么要进行 大模型优化

类似于GPT、文心等这样的通用的预训练大模型， 通常基于广泛的公开文献和网络信息训练，缺乏许多专业知识和行业数据的积累，在行业针对性和精准度方面存在不足在数据安全和隐私保护上都有不足

特别是遇到在生产环境中部署使用时，需要不断迭代和改进 LLM 应用的性能， 许多问题就暴露出来了，包括：使用成本较高、垂直能力不足，性能表现不稳定、难以优化。

优化大模型 的方法

提示工程：调提示词 【prompt engineering】 通过输入文本指令让 模型按照要求输出期望结果

Prompt 工程：网上有很多教程，最直接去看官网， OpenAI 官方提示工程文档，Claude 官方提示工程文档

提示工程核心原则： 编写清晰的指令，将复杂任务分解为简单任务， 给 LLM 一定的时间空间思考，系统的测试性能变化

Prompt 工程是上手难度最低的， 优化大模型可以可以先从 prompt 开始， 若 prompt 工程无法满足实际需求， 再分析性能瓶颈原因，采取进一步策略。

无法满足需求原因可能是 1：缺少特定上下文数据，将缺失的数据提供给模型即可，可用【RAG】补充 2：在垂直领域的表不足，则可选择【微调】

检索+生成【RAG (Retrieval-Augmented Generation) 基于检索增强的生成 可以理解为 RAG是一个图书管理员， 帮你在图书馆找到答案， 然后用这些答案来帮你写作业。

选择【RAG与微调】之间，可以从以下维度 来评估项目具体需求后进行选择  1 需要外部知识吗 ?  需要 RAG  2 需要模型适配吗？  不需要  RAG 3 减少幻觉至关重要？重要  RAG 4 有大量数据可使用吗？     没有，RAG 5 数据的静态/动态程度如何？动态  RAG 6 项目是否有多透明/可解释？需要   RAG 除以上外还需要综合考虑的其他方面： 可扩展性，延迟和实时要求，维护与支持、 稳健性和可靠性、道德和隐私问题、与现有系统集成 用户体验、成本、复杂，在某些情况下， 同时利用 Prompt   RAG 和微调的混合方法可能是最佳选择。

微调：fine-tuning 微调 是指在已经训练好的模型基础上， 进一步调整，让你模型的输出 能够更符合你的预期。

微调

全量微调FFT(Full Fine Tuning)：对全量的模型参数，进行全量的训练。

PEFT (Parameter-Efficient Fine Tuning)：只对部分模型参数进行训练。

从成本和效果的角度综合考虑，PEFT是目前业界比较流行的微调方案。

策略上还是建议先从提示词工程 -> 微调开始 缺失知识可以考虑用 RAG，准确度不足或模式遵循度不足可以考虑微调 LLM 应用性能优化的推荐路径 prompt 工程 -> 进阶 prompt 工程 -> 简单 RAG -> 微调模型 -> 进阶 RAG -> 带着 RAG 样本微调模型

在OpenAI和百度千帆大模型等官网上， 都有介绍对应模型微调方法和流程。 大致流程为： 1 需求分析  2 数据准备 3 选择基础模型 4 模型微调  5 性能评估 6 迭代优化： 7 模型部署  8 监控与维护 9 用户反馈循环：

模型优化评估

外包人工注释：成本高、速度慢，而且难以确保质量的一致性。

内部人工审核：可确保质量，但速度较慢，且需要大量资源

基于模型的评估：使用另一个 LLM （通常是更好的模型，如 GPT-4） 来评估系统的性能。有了强大的通用模型，这种方法变得越来越有效

基于代码的评估：编写一套评估自定义的规则，以评估模型输出的特定方面。