大模型理论基础(打好基础,迭代更新自己的笔记)
2025-06-03 23:43:34 0 举报
AI智能生成
大模型理论基础是一项集成了计算机科学、数学、统计学和语言学等多学科知识的技术成就,它强调了深度学习和大规模数据处理在构建和训练复杂的神经网络模型中的核心作用。这些模型,如最新的Transformer架构,通过成百上千亿个参数能够准确理解和生成人类语言,从而推动了自然语言处理(NLP)和人工智能(AI)领域的飞速发展。它们不仅能够执行传统的文本翻译和摘要任务,而且在情感分析、问答系统、写作辅助等高级应用场景中展示出惊人的能力。更进一步,大模型理论基础的探究还在拓展到其他模态的学习,如计算机视觉和多模态学习,展现出跨领域应用的巨大潜力。除此之外,它们也为理解人脑如何处理和理解信息提供了新的视角,推动了人机协作和智能系统的创新。
作者其他创作
大纲/内容
模型分类
LLM大语言模型
(Large Language Model)
(Large Language Model)
小型模型
参数量:百万-十亿,如Model-1M或者Lite/Small
中型模型
参数量:十亿至三百亿 1B-30B,Billion十亿
大型模型
参数量:三百亿至二千亿 30B-200B
超大型模型
参数量:二千亿以上 200B以上
GPT-4o中的4o代表的是“omni”,意为“全能”或“所有”的概念
多模态模型
是一种能够处理和整合多种类型数据(如文本、图像、音频、视频等)的深度学习模型
特点
多才多艺:能够同时处理和融合来自多种模态的数据,实现信息互补和综合理解
理解力强:不仅能看懂单个信息,还能理解这些信息之间的关系
能干多种活:支持多个任务(如图像分类、文本生成、情感分析等)在一个模型中进行,提高模型的泛化能力和效率
学习能力强:多模态模型往往先在大规模多模态数据集上进行预训练,学习跨模态的共同表示,之后再针对具体任务进行微调,以适应特定应用场景
专有模型
医疗健康:MedBench
自动驾驶
工作原理
通俗原理:根据上下文,猜下一个词(的概率)
深入理解
大模型训练:就是让AI“努力学习”的过程。就像教一个孩子从不懂到懂,AI也需要通过大量数据来学习知识和技能
1、喂数据:让AI“疯狂刷题”
2、调参数:帮AI“找到最佳学习方法”
3、迭代升级:让AI“越学越聪明”
Tips:
a、大模型阅读人类说过的所有的话,这就是「机器学习」
b、训练过程会把不同token同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重」
1、喂数据:让AI“疯狂刷题”
2、调参数:帮AI“找到最佳学习方法”
3、迭代升级:让AI“越学越聪明”
Tips:
a、大模型阅读人类说过的所有的话,这就是「机器学习」
b、训练过程会把不同token同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重」
大模型推理:通俗来讲,就是AI“动脑筋思考并给出答案”的过程。就像你做完数学题、写完作文一样,AI也需要通过一系列计算来“想”出结果
1、接收输入:AI的“耳朵和眼睛”
2、计算匹配:AI的“大脑运算”
3、输出答案:AI的“嘴巴”
Tips:
a、给推理程序若干token,程序会加载大模型权重,算出概率最高的下一个token
b、用生成的token,再结合上文,就能继续生成下一个token,以此类推
1、接收输入:AI的“耳朵和眼睛”
2、计算匹配:AI的“大脑运算”
3、输出答案:AI的“嘴巴”
Tips:
a、给推理程序若干token,程序会加载大模型权重,算出概率最高的下一个token
b、用生成的token,再结合上文,就能继续生成下一个token,以此类推
Token
通俗来讲,就是AI处理语言时的“最小单位”,就像我们读文章时的一个字或一个词
1、字符:最小的书写单位,比如汉字;“苹果”=2个字符
2、词:有语义的单位,比如“苹果”;“苹果”=1个词
3、Token:AI处理的最小单位,可以自定义;“苹果”=1或2个Token(看怎么拆)
1、字符:最小的书写单位,比如汉字;“苹果”=2个字符
2、词:有语义的单位,比如“苹果”;“苹果”=1个词
3、Token:AI处理的最小单位,可以自定义;“苹果”=1或2个Token(看怎么拆)
拆分方式
中文:可能按字/词/偏旁部首来拆(比如“我爱北京”拆成“我”、“爱”、“北京”)
英文:英文可能按空格和子词来拆(比如“running”拆成“run”和“##ing”)
AI应用分类
助手类
ChatGPT、DeepSeek、通义千问、Kimi Chat、文小言、智谱清言
搜索类
Perplexity、秘塔AI、Devv
定制Agent
ChatGPT GPTS、coze、dify
生活应用类
石头扫地机器人、小米智能门锁、Siri、小爱同学、小度智能屏
大模型幻觉
是指模型生成的内容与现实世界事实或用户输入不一致的现象,分为 事实性幻觉 和 忠实性幻觉
减少幻觉的几个方向
提高数据质量
模型校准
增强上下文理解
引入外部知识
用户反馈机制
大模型应用业务架构
AI Embedded AI嵌入
通常被用来提升现有应用智能化程度,改善用户体验或增加功能
通常被用来提升现有应用智能化程度,改善用户体验或增加功能
AI Copilot AI助理模式
大模型是用户的合作伙伴
协助用户完成任务
大模型是用户的合作伙伴
协助用户完成任务
AI Agent AI智能体模式
被设计为独立的代理系统
具有高度自治能力
能代表用户处理事务
被设计为独立的代理系统
具有高度自治能力
能代表用户处理事务
大模型应用技术架构
提示词
代表:ChatGPT、文心一言
特点:用户发一句提示词prompt,大模型回一句“输出结果”
本质:在大模型基础上,套了一层聊天应用的壳,调用大模型的解码器,输入参数是 " 提示词 Prompt " ,得到的结果是 解码器 针对提示词 以及综合训练的大模型向量数据根据概率生成的 " 输出结果 "
特点:用户发一句提示词prompt,大模型回一句“输出结果”
本质:在大模型基础上,套了一层聊天应用的壳,调用大模型的解码器,输入参数是 " 提示词 Prompt " ,得到的结果是 解码器 针对提示词 以及综合训练的大模型向量数据根据概率生成的 " 输出结果 "
Agent + Function Calling
1、用户在 应用程序 中输入 " 提示词 " ;
2、进行函数调用,AI大模型分析提示词,发现需要调用"应用程序" 的API , 这是 大模型 "回调"应用/大模型 的功能;调用 API 功能完毕后,继续看是否满足 " 提示词 " 的要求,不满足的话继续进行 函数调用,直到满足为止继续执行下一步
3、输出符合 " 提示词 " 要求的 文本结果;
说明:Agent + Function Calling 技术架构 使用非常广泛 , 可以 将自己开发的应用功能嵌入到 AI 大模型中 , 将复杂的逻辑分解成 更小的/可管理的部分 , 每个部分通过调用 不同的函数 实现
2、进行函数调用,AI大模型分析提示词,发现需要调用"应用程序" 的API , 这是 大模型 "回调"应用/大模型 的功能;调用 API 功能完毕后,继续看是否满足 " 提示词 " 的要求,不满足的话继续进行 函数调用,直到满足为止继续执行下一步
3、输出符合 " 提示词 " 要求的 文本结果;
说明:Agent + Function Calling 技术架构 使用非常广泛 , 可以 将自己开发的应用功能嵌入到 AI 大模型中 , 将复杂的逻辑分解成 更小的/可管理的部分 , 每个部分通过调用 不同的函数 实现
" RAG = Embeddings + Vector Database " 技术架构
RAG:Retrieval-Augmented Generation,检索增强生成,结合 " Embeddings 嵌入 " 和 " Vector Database 向量数据库 " ,该架构用于 自然语言处理领域 的 信息检索 和 生成任务
1、Embeddings 嵌入是把文字转为容易计算的编码向量,是将 词语或文本 映射到高维向量空间的技术
2、向量数据库Vector Database是一种专门用于存储和检索向量数据的数据库系统 , 可以通过特定的数据结构和算法加速向量之间的比较和匹配过程
执行流程:
a、用户输入 " 提示词 "
b、AI 大模型 拿到 " 提示词 " 之后 , 先到 " 向量数据库 " 中 , 检索所有可能与该 " 提示词 " 相关的知识
c、根据 " 提示词 " 从向量数据库中检索出来的知识一起传递给AI 大模型 , 相当于将 " 检索出来的知识 " 追加到了提示词中,后面的 AI大模型执行就相当于Agent+Function Calling 技术架构过程
1、Embeddings 嵌入是把文字转为容易计算的编码向量,是将 词语或文本 映射到高维向量空间的技术
2、向量数据库Vector Database是一种专门用于存储和检索向量数据的数据库系统 , 可以通过特定的数据结构和算法加速向量之间的比较和匹配过程
执行流程:
a、用户输入 " 提示词 "
b、AI 大模型 拿到 " 提示词 " 之后 , 先到 " 向量数据库 " 中 , 检索所有可能与该 " 提示词 " 相关的知识
c、根据 " 提示词 " 从向量数据库中检索出来的知识一起传递给AI 大模型 , 相当于将 " 检索出来的知识 " 追加到了提示词中,后面的 AI大模型执行就相当于Agent+Function Calling 技术架构过程
Fine-tuning 微调 技术架构
Fine-tuning:是在一个已有的 AI 大模型基础上 , 进行微调操作
1、要预训练模型 , 初期要有一个已经 训练好的 GPT 大模型
2、将 预训练模型 应用到特定的任务上 , 每个任务要有:输入数据格式、输出要求、评估指标
3、验证数据集评估模型性能 , 如果对结果不满意 , 持续进行 超参数调整 和 Fine-tuning 策略的优化 , 直到得到满意结果为止
1、要预训练模型 , 初期要有一个已经 训练好的 GPT 大模型
2、将 预训练模型 应用到特定的任务上 , 每个任务要有:输入数据格式、输出要求、评估指标
3、验证数据集评估模型性能 , 如果对结果不满意 , 持续进行 超参数调整 和 Fine-tuning 策略的优化 , 直到得到满意结果为止
0 条评论
下一页