AI产品经理知识总结
2024-08-05 16:45:31 2 举报
AI智能生成
登录查看完整内容
AI产品经理知识总结
作者其他创作
大纲/内容
大语言模型(LLM)是通过深度学习方法,利用庞大的文本数据集进行训练的机器学习模型,它具备生成自然流畅的语言文本以及理解语言文本深层语义的能力
在大规模数据量结合“预训练”、“微调”的基础上(若需要可以在额外做“训练奖励模型+强化学习训练”),产生了一个符合业务需求的大模型工具
大部分大模型基于神经网络模型进行预训练出来的,在预训练前可根据具体任务、数据集和性能需求进行神经网络模型结构的设计和调整
层数:包括输入层、隐藏层(可能有多层)和输出层
神经元数量:每层中神经元的数量,影响模型的复杂度和学习能力
连接方式:神经元之间的连接方式,如全连接、卷积连接等
模型结构
激活函数用于在神经元输出中引入非线性因素,常用的激活函数包括Sigmoid、ReLU、Tanh等
激活函数
用于调整模型参数的算法,如梯度下降法、Adam优化器等
优化算法
用于评估模型预测结果与实际结果之间差异的函数,如均方误差、交叉熵损失等
损失函数
主要元素
了解模型需要解决的具体问题,如分类、回归、生成等
明确任务需求
包括数据收集、清洗、预处理和划分训练集、验证集和测试集
数据准备
根据任务需求和数据特点选择合适的模型结构,如卷积神经网络(CNN)用于图像处理,循环神经网络(RNN)用于序列数据处理等
选择模型结构
设置学习率、批处理大小、迭代次数等训练参数
配置训练参数
设计步骤
通过调整学习率、批处理大小、隐藏层数、神经元数量等超参数来优化模型性能
超参数调优
使用L1、L2正则化或Dropout等方法防止模型过拟合
正则化
移除模型中的冗余部分,如不重要的神经元或连接,以减小模型规模和提高推理速度
模型剪枝
结合多个模型的预测结果来提高整体性能,如模型平均、Bagging、Boosting等
集成学习
调整方法
使用验证集评估模型性能,并根据评估结果调整模型结构和参数
重复上述过程,直到模型在验证集上的性能达到满意水平
评估与迭代
如TensorFlow、PyTorch等,提供了丰富的神经网络构建和训练工具
编程框架
如TensorBoard、Netron等,可以帮助用户直观地理解模型结构和训练过程
可视化工具
如HyperOpt、Ray Tune等,可以自动搜索最优的超参数组合
自动化调参工具
如TensorRT、TVM等,可以对训练好的模型进行压缩和加速,提高推理效率
模型压缩与加速工具
设计与调整工具
神经网络模型的设计、调整
神经网络模型是什么?
使用“无监督学习”的方法,在“神经网络模型”上进行大规模数据训练得到“基座模型”(或叫通用大模型,其有较强的通用能力,但是在某一特定领域不会很强)
指在大规模数据集上预先进行训练的神经网络模型,这些模型通过在大规模数据集上学习通用的特征表示,从而能够捕捉到数据中的潜在结构和模式,进而提高模型的泛化能力
比如gpt3,会用海量文本自行学习人类语言的语法和语义,然后在表达结构和模式。具体来说,模型会看到一部分文本,基于上下文尝试预测下一个token/字,然后通过比较正确答案和它的预测,模型会更新权重从而逐渐能根据上文来生成合理的下文。随着见过的文本越来越多,生成文本的能力就越来越好。此时得到的基座模型,不是gpt的对话模型,他有预测下一个token,延续文本的能力。但不会进行对话,回答。
预训练(Pre-training)
“微调”通常是在“预训练模型”的基础上进行的,模型使用有标注的数据集进行“监督学习”让模型更加适应特定的任务,得到“SFT强化模型”;这意味着微调后的模型继承了预训练模型的大部分知识和能力。因此,预训练是微调的一个重要前提和基础
比如为了训练出一个擅长对话的AI助手,需要给“基座模型”看更多的对话数据。此时需要的训练数据和训练时长都较小,成本也较低。这一步中提供给模型人类写的专业且高质量的对话, 包括问题和人类中意的回答,属于监督学习。所以也称为监督微调(supervised fine-tuning,SFT)。完成后会得到一个sft模型。与第一步中基座模型相比,更擅长对问题做出回答
微调(Fine-tuning)
得到一个能对回答进行评分预测的奖励模型并用“微调”得到的模型对问题生成回答,用奖励模型给回答生成评分,利用评分作为反馈进行强化训练
强化学习是让模型在环境里进行行动,获得结果反馈,从反馈里学习,进而能在给定情况下采取最佳行动,来最大化奖励或最小化损失
类似于训练小狗,有些行为获得奖励,有的没有奖励甚至有惩罚,通过观察行为和反馈之间的关系,小狗的行为会逐渐接近训狗师的期望。训练chatgpt时,让chatgpt基于问题给出回答,然后让人类评估员给出打分。打分需要基于3H原则:helpful有用性、honest真实性:harmless无害性
对其阶段(PPO,即:训练奖励模型+强化学习训练)
目标提升:两者都旨在提升模型的性能,使其能够更好地适应特定任务或领域。无论是预训练还是微调,都是通过优化模型参数来改进其表现
数据驱动:两者都依赖于大量数据进行训练。预训练使用大规模的无标签或弱标签数据来捕捉语言的一般特征和结构,而微调则使用有标签的任务特定数据来优化模型以适应特定任务
模型基础:微调通常是在预训练模型的基础上进行的,这意味着微调后的模型继承了预训练模型的大部分知识和能力。因此,预训练是微调的一个重要前提和基础
相似点
预训练:在大规模的文本数据上训练一个通用的语言模型,目标是捕捉到底层语言的统计规律和语义信息,而不是特定任务的细节。预训练模型通常被称为预训练模型或基础模型
微调:在特定任务上使用预训练模型进行进一步的训练,以使其适应特定任务的要求。微调阶段使用有标签的任务特定数据集,并通过优化模型参数来增强模型在特定任务上的性能
训练阶段与目标
预训练:使用大规模的未标记文本数据,通过自监督学习任务(如掩码语言建模、下一个句子预测等)来学习通用的语言表示
微调:使用有标签的任务特定数据集,通过有监督的训练来调整模型参数。微调过程通常包括冻结预训练模型的底层层级(如词向量)和调整上层层级(如分类器)的权重
训练数据与方式
预训练:通常需要大量的计算资源和时间来处理海量的数据。预训练过程可能涉及复杂的模型结构和大量的参数,因此计算成本较高
微调:相对于预训练而言,微调所需的计算资源和时间较少。由于微调是在预训练模型的基础上进行,因此可以更快地收敛到较好的性能
计算资源与时间
预训练:通过在大规模数据集上训练,预训练模型能够学习到丰富的语言表示和通用知识,具有较强的泛化能力
微调:微调后的模型虽然针对特定任务进行了优化,但在其他任务上的泛化能力可能受到一定限制。不过,由于微调保留了预训练模型的大部分知识和能力,因此微调后的模型通常仍具有较好的泛化性能
模型泛化能力
区别
预训练、微调对比
产生方式
大模型是什么
具有一定智能和自主行为能力的实体,它可以做出规划、调用工具、执行动作
它利用内置的大语言模型来做出规划,决定执行哪些步骤,每个步骤需要调用哪些工具(如 RAG),之后调用相应的工具,最终完成任务。
Agent
用于提升大模型回答问题的准确性;传统的大模型会凭空“编造”答案,RAG 技术结合检索和生成两个步骤来改善这个问题,是当前大模型解决“幻觉”问题的重要方法
首先,它会检索相关文档或数据源(比如一个数据库或者网络资源),找到最相关的片段作为证据。然后,大模型利用这些证据辅助生成精确的答案。
RAG
一个专门为开发基于大语言模型的应用所设计的编程框架。它提供了一系列工具和服务,使得开发者能够更容易地构建和整合各种组件
在涉及 RAG技术应用时,LangChain可以帮助开发者高效地组织、检索和对接多种数据源例如:将文本数据进行向量化存储,并与大模型进行无缝交互
LangChain
1.LangChain作为一个基础设施平台,提供了构建此类系统的工具和服务。在这个例子中,开发者使用 LangChain整合不同的工具和服务;如:对接检索服务、对接商品价格知识库、对接售后服务 API接口、对接大语言模型等
第一步:调用 RAG工具,查询特大号苹果单价、中号苹果单价
第二步:调用计算器工具,计算5斤特大号苹果 +3斤中号苹果的总价
①做出规划:用户问了一个问题“5斤特大号苹果加 3斤中号苹果,一共多少钱”,Agent调用大语言模型进行规划
②调用工具:RAG工具首先通过检索块从商品价格知识库中查找相关信息找出最相关的条目;之后,Agent将这些条目传递给计算工具,计算工具计算出总价
③执行动作:大模型基于总价生成客服文案
2.Agent扮演核心角色,负责协调和执行整个客服处理过程
举个例子:做一个客服问答产品
Agent、大模型、RAG关系
概念:是一个用于调整模型生成文本时创造性和多样性的超参数。这个参数影响模型在生成文本时采样预测词汇的概率分布,从而控制生成的文本的随机性和创造力水平
特点:模型会更倾向于从较多样且不同的词汇中选择,生成的文本风险性更高、创意性更强
效果:虽然生成的文本更加多样化,但也可能产生更多的错误和不连贯之处,甚至可能出现语法错误和废话
示例:在高温下,模型可能生成如“驾”和“飞”这样不太可能的词汇,使文本更具创意但也可能更难以理解
高温
特点:模型主要会从具有较高概率的词汇中选择,从而生成更平稳、更连贯的文本
效果:生成的文本风险性较低,但可能显得过于保守和重复,缺乏新意
示例:在给定提示“一只猫正在____”时,低温下的模型可能更倾向于生成“玩”这样高概率的词汇
低温
高、低温区别
温度
概念:在RAG系统中,相关性是指检索到的信息与用户查询之间的关联程度。高相关性的信息更有可能帮助生成准确、有用的回答
RAG系统通过优化检索算法和排序机制来提高检索结果的相关性,从而确保生成的回答与用户查询紧密相关
相关性
概念:在RAG系统中,噪声通常指的是检索到的信息或数据中存在的错误、不相关或冗余的部分,导致生成的回答不准确或存在误导性
为了降低噪声的影响,RAG系统需要采用有效的数据清洗和过滤技术,确保检索到的信息质量
噪声
概念:幻觉”指的是模型在生成文本时产生的不准确、不相关或虚构的信息。 这通常发生在模型对回答问题所需的知识不了解或不熟悉的情况下
是目前阻碍大模型落地的最重要原因,因为幻觉大模型会提供不切实际的言论,也叫“不切实际的facts(事实)”
提高大模型能力(未来可能实现)如:底层能力、训练方式等
可以框定一些边界(现在);通过框定边界提高大模型的理解能力,从而生成内容
接入“知识库”;结合外部知识源来弥补LLMs在知识方面的不足,从而有效缓解“幻觉”问题
与知识图谱结合,如:graph RAG
解决办法
幻觉
采用实体关系的方法来存储信息,可以比较直观的了解实体间的关系;如:人、地名、公司名等现实生活中存在的实体;张三在A公司工作过,现在在B公司工作;而现在李四在A公司工作;那么我们可以从知识图谱知道张三、李四的关系
概念:一种存储信息的方式
如:某一文本数据已经向量化存储于向量数据库中,但是向量化存储过程中可能会遗漏文本数据中某些实体的关系;那么我们将“知识图谱”与“向量数据库”结合,发挥“知识图谱”的存储实体关系的能力;这样可以大大减清大模型的幻觉
可与向量数据结合,减清大模型的幻觉
知识图谱
概念:召回率(Recall)是衡量系统性能的关键指标之一。它表示系统能够检索到的相关文档占所有相关文档的比例
高召回率意味着系统能够检索到更多的相关文档,从而提供更全面和准确的回答
然而,高召回率也可能伴随着较高的噪声和冗余数据。因此,在优化RAG系统时,需要在召回率和准确性之间找到平衡点
召回率高、低影响
怎么找到“召回率和准确性之间的平衡点”?
召回
概念:在指模型基于其训练数据中的模式和知识,对某个问题或查询可能产生的初步或预期的回答。这种“先验”性质是基于模型在训练过程中学习到的知识和规律,而不是基于当前具体查询的即时分析
先验答案(Prior Answer)
概念:示模型对其预测或答案的确定程度。当模型生成一个答案或进行一项预测时,它通常会附带一个置信度分数,这个分数反映了模型对其答案的自信程度
置信度(Confidence)
基础名词含义
1.知识库中的信息被存储在向量数据库中
2.当接收到用户的问题时,系统能够迅速从知识库中检索出相关的知识片段
3.这些片段被大模型生成全面的回答
涉及内容(自上而下):重排模型、嵌入模型、向量数据库
概念:检索增强生成;RAG 技术的核心在于它将先进的向量数据库与大模型的智能问答能力进行了完美结合
1.需将文件数据进行切分(即parser and splitter);
2.切分后将数据进行\"向量化”,转化成机器可理解的数字; PS:同理,我们使用agent检索的时候,大模型也是先将问题进行向量化,然后在通过向量数据语义上的相似性进行检索
3.将向量化的数据使用“嵌入模型”“embedding”进向量数据库
向量化
为什么要重排:当第一轮查询时,大模型有可能会召回非常多的内容;这批内容中有可能会将相关性较高的排列至后面;故在进行第2轮检索时(重排),基于第一轮返回的内容进行一个相关性的排序;最终大模型在输出一个最优解
重排
基本概念及实现原理
RAG
如何提高多轮多话的连贯性?
prompt:改变提示词,调整大模型回答问题的步骤
微调
大模型优化方式?(提升大模型的能力)
RAG优化(RAG的痛点及优化方案)
结构化处理,比如非结构化数据的结构化处理
标准化处理,尽可能让数据以某个或者某几个特定的类型存在
聚焦处理,通过业务的一些信息,缩小要检索的文档范围
被检索的知识内容(知识库中的内容)
前期把数据预处理做得很好,那对于R和G这两部分的能力要求其实就没有那么高了,从投入产出比的角度来说是比较“划算”的
通过业务缩小检索文档范围,从而来使整体的准确性得到提高。
选择适合的embedding模型和rank模型
引入rerank、精排等搜索排序机制,让召回的答案更精准
问题改写,将用户的问题,进行rewrite,使其能找到相应的回答;但目前没有看到rewrite之后不出问题的,基本都是rewrite之后引入了一个新的问题
专注于R(retrieval检索)的能力提升
对模型进行Finetune,如果模型能有行业领域的知识的话,整体的回答效果肯定会有提升
多轮对话,大模型天然支持多轮对话,而LLM Agent在多轮对话下也能处理更复杂的任务
通过prompt engineering让输出的答案更可靠以及更可控
让大模型自行判断问题是否能回答,而不是通过R(retrieval检索)的结果来判断
专注于G(generate生成)的能力提升
如何提高RAG生成答案的准确性?
如果模型对其先验答案的置信度高,或者错误信息与先验偏差大,RAG模型可能会坚持其先验答案
如果模型对其先验答案的置信度低,并且错误信息与先验偏差小,RAG模型可能会倾向于采用参考文档中的信息,即使是错的
当参考文档包含错误信息时,RAG模型可能会产生两种情况的答案
如果一个知识同时出现在知识库中和大模型原本的知识中,那么最后会选择哪一个进行回答?
在多轮对话中,用户的当前输入往往包含隐含的指代关系和省略的信息
例如,用户在对话中提到的「它」可能指代之前对话中提到的某个具体事物。如果缺乏这些上下文信息,系统无法准确理解用户意图,从而导致语义缺失,无法有效召回相关信息。在这种情况下,我们可以使用上下文信息补全,这里的上下文不仅仅是指多轮对话的信息,还包含当前对话的背景信息,比如时间、地点等。我们可以通过使用大型语言模型(LLM),对当前的 query 进行重写,将上下文中隐含的信息纳入到新生成的 query 中
在这个例子,用户的问题「我想看第一季」包含了隐含的指代信息,没有上下文信息的补全,系统无法知道具体指的是哪部电视剧。通过采用上下文信息补全,我们把前面的对话信息也纳入其中,对 query 进行改写,可以生成类似「我想看庆余年第一季」的完整 query,从而提高后续检索的清晰度和相关性
上下文信息补全可以提高 query 的清晰度,使系统能够更准确地理解用户意图;不过,因为需要多调用一次 LLM,会增加整体流程的 latency 问题。因此,我们也需要权衡计算复杂度和延迟的问题
下面是一段多轮对话的示例:User:最近有什么好看的电视剧?Bot:最近上映了《庆余年 2》,与范闲再探庙堂江湖的故事User:我想看第一季
上下文信息补全
1.RAG Fusion 旨在提升搜索精度和全面性,它的核心原理是根据用户的原始 query 生成多个不同角度的 query ,以捕捉 query 的不同方面和细微差别
2.然后通过使用逆向排名融合(Reciprocal Rank Fusion,RRF)技术,将多个 query 的检索结果进行融合,生成一个统一的排名列表,从而增加最相关文档出现在最终 TopK 列表的机会
RAG-Fusion(融合)
类似于 RAG Fusion,Multi-Query 生成多种视角的查询来检索相关文档,但不使用RRF 来融合结果,而是将所有结果放入上下文中,提供更丰富的信息源。
Multi-Query(多查询)
query改写
通过LLM自动生成假设性回答,从而生成一个假设性的文档;后将假设性文档向量化,与“知识库”中的文档相检索,做相似度匹配,以此找到一个在语义上接近的答案。这样可以提高 query 和文档在语义空间上的相似性,提升检索精度
HyDE 首先生成一个假设性回答比如:提高睡眠质量的方法包括保持规律的睡眠时间、避免咖啡因和电子设备等
这个假设回答经过编码后,可能与提供的知识库中的文档内容“如:不喝咖啡,不玩手机等电子设备“更接近,从而更容易找到相关文档
举个例子:假设用户提问「如何提高睡眠质量?」
HyDE(假设性文档嵌入)
通过引导模型提出更高级别的问题,进行抽象推理和深度思考,将复杂问题分解为更简单的子问题进行解答
Step-back prompting(后退提示)
query增强
IR-CoT
Least-to-Most
query分解
RAG大模型如何对query(询问)改写?
1.动态数据:RAG
2.模型能力的定制:微调
3.减轻幻觉:RAG>微调
4.内容可解释性:RAG(因为使用RAG有知识库追溯缘由,而微调没证据追述)
5.降低成本:RAG
6.业务场景对大模型通用能力的依赖:RAG(若使用微调的话,会降低“基座模型”的某些原有通用能力)
7.延迟性:微调(用RAG的话需要经过检索、重排等步骤,会有一定的延时性)
8.智能设备的适用性:微调(因为硬件本身资源有限,只能尽量使用小模型,且智能设备只需要在某一领域专业即可,不需要懂很多)
实际应用中用什么技术?
RAG与微调的区别
寻找场景,理解技术的边界
PMF【Product Market Fit(产品市场契合度)】阶段靠别人不如靠自己;即:在此阶段要求产品的第一负责人对业务非常了解,若不了解技术可以寻求技术团队帮助加入团队中一起去想业务;想怎么把技术跟业务结合起来,而不仅仅是在团队外提供一个技术支持
考虑清楚技术壁垒或业务壁垒
用“最好的模型”进行MVP的开发,后续在做降低开发成本的方法
不要过高的看重技术,不能忽略业务;我们不是专门做技术的团队;待真正落地后在考虑技术问题如:能用提示词工程解决的就不要用RAG、微调; 提示词工程>RAG>微调
大模型项目落地中的5个坑(PMF阶段)?
AI常见问题解决方案
AI
收藏
0 条评论
回复 删除
下一页