AI产品经理要知道的 3种大模型优化方式
2024-04-08 13:18:30 0 举报
AI智能生成
登录查看完整内容
AI产品经理要知道的3种大模型优化方式
作者其他创作
大纲/内容
面向广泛场景,提供基础智能服务的模型。如【GPT】【Claude】【 文心一言】 【通义千问】【云雀】
通用大模型
针对特定行业需求,定制化开发的模型,这一层次的模型相比通用大模型,具有更专业的行业/领域知识,能够更好地处理领域内的特定问题。如:子曰大模型,网易推出的“场景为先”的教育垂类大模型
行业/领域大模型
在通用大模型或行业大模型的基础上,针对特定企业的独特需求、数据、业务流程进行定制化开发和训练。如:Salesforce Einstein:是一个集成在Salesforce平台上的AI助手,专门为销售预测、客户意向分析等CRM(客户关系管理)相关任务定制。
企业大模型
模型的分类
类似于GPT、文心 等这样的通用的预训练大模型,通常基于广泛的公开文献和网络信息训练,缺乏许多专业知识和行业数据的积累,在行业针对性和精准度方面存在不足在数据安全和隐私保护上都有不足
特别是遇到在生产环境中部署使用时,需要不断迭代和改进 LLM 应用的性能,许多问题就暴露出来了,包括:使用成本较高、垂直能力不足,性能表现不稳定、难以优化。
为什么要进行大模型优化
Prompt 工程:网上有很多教程,最直接去看官网,OpenAI 官方提示工程文档,Claude 官方提示工程文档
提示工程核心原则:编写清晰的指令,将复杂任务分解为简单任务,给 LLM 一定的时间空间思考,系统的测试性能变化
Prompt 工程是上手难度最低的,优化大模型可以可以先从 prompt 开始 ,若 prompt 工程无法满足实际需求,再分析性能瓶颈原因,采取进一步策略。
无法满足需求原因可能是1:缺少特定上下文数据,将缺失的数据提供给模型即可,可用【RAG】 补充2:在垂直领域的表不足,则可选择【微调】
提示工程:调提示词【prompt engineering】通过输入文本指令让模型按照要求输出期望结果
选择【RAG与 微调】之间,可以从以下维度来评估项目具体需求后进行选择 1 需要外部知识吗 ? 需要 RAG 2 需要模型适配吗? 不需要 RAG3 减少幻觉至关重要? 重要 RAG4 有大量数据可使用吗? 没有,RAG5 数据的静态/动态程度如何? 动态 RAG6 项目是否有多透明/可解释? 需要 RAG除以上外还需要综合考虑的其他方面:可扩展性,延迟和实时要求,维护与支持、稳健性和可靠性、道德和隐私问题、与现有系统集成用户体验、成本、复杂,在某些情况下,同时利用 Prompt RAG 和微调的混合方法可能是最佳选择。
检索+生成 【RAG (Retrieval-Augmented Generation) 基于检索增强的生成可以理解为 RAG是一个图书管理员,帮你在图书馆找到答案,然后用这些答案来帮你写作业。
全量微调FFT(Full Fine Tuning):对全量的模型参数,进行全量的训练。
PEFT (Parameter-Efficient Fine Tuning):只对部分模型参数进行训练 。
从成本和效果的角度综合考虑,PEFT是目前业界比较流行的微调方案。
微调
策略上还是建议先从提示词工程 -> 微调开始缺失知识可以考虑用 RAG,准确度不足或模式遵循度不足可以考虑微调LLM 应用性能优化的推荐路径prompt 工程 -> 进阶 prompt 工程 -> 简单 RAG -> 微调模型 -> 进阶 RAG -> 带着 RAG 样本微调模型
在OpenAI和 百度千帆大模型等官网上,都有介绍对应模型微调方法和流程。大致流程为:1 需求分析 2 数据准备 3 选择基础模型4 模型微调 5 性能评估 6 迭代优化:7 模型部署 8 监控与维护 9 用户反馈循环:
微调:fine-tuning 微调是指在已经训练好的模型基础上,进一步调整,让你模型的输出能够更符合你的预期。
优化大模型的方法
大模型优化3种方法
外包人工注释:成本高、速度慢,而且难以确保质量的一致性。
内部人工审核:可确保质量,但速度较慢,且需要大量资源
基于模型的评估:使用另一个 LLM (通常是更好的模型,如 GPT-4) 来评估系统的性能。有了强大的通用模型,这种方法变得越来越有效
基于代码的评估:编写一套评估自定义的规则,以评估模型输出的特定方面。
数据指标评估:准确率,精度、召回率、F1分数、AUC-ROC曲线
终端用户反馈和 A/B 测试:用户的直接反应以及表明用户偏好的隐式操作
模型角度(generation)回答真实性:模型结果真实性多高(少一些模型幻觉)回答相关度:结果和问题有多相关,不能南辕北辙
检索角度(retrieval)召回率(recall):相关信息有多少包含在返回的检索内容里,越全越好准确率(precision):返回的检索内容中有用信息占比多少,越多越好
RAG 评估
模型优化评估
《如何让 LLM 应用性能登峰造极》作者:云中江树《浅谈大模型私有化+精调:面向垂直行业与特定场景之需》 作者:AI产品经理研究与实践《大模型优化:RAG还是微调?》作者:omer
学习资料
AI产品经理要知道的3种大模型优化方式
0 条评论
回复 删除
下一页