大模型理论基础（打好基础，迭代更新自己的笔记）

2025-06-03 23:43:34   0  举报





AI智能生成

大模型理论基础是一项集成了计算机科学、数学、统计学和语言学等多学科知识的技术成就，它强调了深度学习和大规模数据处理在构建和训练复杂的神经网络模型中的核心作用。这些模型，如最新的Transformer架构，通过成百上千亿个参数能够准确理解和生成人类语言，从而推动了自然语言处理（NLP）和人工智能（AI）领域的飞速发展。它们不仅能够执行传统的文本翻译和摘要任务，而且在情感分析、问答系统、写作辅助等高级应用场景中展示出惊人的能力。更进一步，大模型理论基础的探究还在拓展到其他模态的学习，如计算机视觉和多模态学习，展现出跨领域应用的巨大潜力。除此之外，它们也为理解人脑如何处理和理解信息提供了新的视角，推动了人机协作和智能系统的创新。

大模型应用分类

大模型业务架构

大模型技术架构

作者其他创作

大纲/内容

模型分类

LLM大语言模型
(Large Language Model)

小型模型

参数量：百万-十亿，如Model-1M或者Lite/Small

中型模型

参数量：十亿至三百亿 1B-30B，Billion十亿

大型模型

参数量：三百亿至二千亿 30B-200B

超大型模型

参数量：二千亿以上 200B以上

GPT-4o中的4o代表的是“omni”，意为“全能”或“所有”的概念

多模态模型

是一种能够处理和整合多种类型数据（如文本、图像、音频、视频等）的深度学习模型

特点

多才多艺：能够同时处理和融合来自多种模态的数据，实现信息互补和综合理解

理解力强：不仅能看懂单个信息，还能理解这些信息之间的关系

能干多种活：支持多个任务（如图像分类、文本生成、情感分析等）在一个模型中进行，提高模型的泛化能力和效率

学习能力强：多模态模型往往先在大规模多模态数据集上进行预训练，学习跨模态的共同表示，之后再针对具体任务进行微调，以适应特定应用场景

专有模型

医疗健康：MedBench

自动驾驶

工作原理

通俗原理：根据上下文，猜下一个词（的概率）

深入理解

大模型训练：就是让AI“努力学习”的过程。就像教一个孩子从不懂到懂，AI也需要通过大量数据来学习知识和技能
1、喂数据：让AI“疯狂刷题”
2、调参数：帮AI“找到最佳学习方法”
3、迭代升级：让AI“越学越聪明”
Tips：
a、大模型阅读人类说过的所有的话，这就是「机器学习」
b、训练过程会把不同token同时出现的概率存入「神经网络」文件。保存的数据就是「参数」,也叫「权重」

大模型推理：通俗来讲，就是AI“动脑筋思考并给出答案”的过程。就像你做完数学题、写完作文一样，AI也需要通过一系列计算来“想”出结果
1、接收输入：AI的“耳朵和眼睛”
2、计算匹配：AI的“大脑运算”
3、输出答案：AI的“嘴巴”
Tips：
a、给推理程序若干token，程序会加载大模型权重,算出概率最高的下一个token
b、用生成的token，再结合上文，就能继续生成下一个token，以此类推

Token

通俗来讲，就是AI处理语言时的“最小单位”，就像我们读文章时的一个字或一个词
1、字符：最小的书写单位，比如汉字；“苹果”=2个字符
2、词：有语义的单位，比如“苹果”；“苹果”=1个词
3、Token：AI处理的最小单位，可以自定义；“苹果”=1或2个Token（看怎么拆）

拆分方式

中文：可能按字/词/偏旁部首来拆（比如“我爱北京”拆成“我”、“爱”、“北京”）

英文：英文可能按空格和子词来拆（比如“running”拆成“run”和“##ing”）

AI应用分类

助手类

ChatGPT、DeepSeek、通义千问、Kimi Chat、文小言、智谱清言

搜索类

Perplexity、秘塔AI、Devv

定制Agent

ChatGPT GPTS、coze、dify

生活应用类

石头扫地机器人、小米智能门锁、Siri、小爱同学、小度智能屏

大模型幻觉

是指模型生成的内容与现实世界事实或用户输入不一致的现象，分为事实性幻觉和忠实性幻觉

减少幻觉的几个方向

提高数据质量

模型校准

增强上下文理解

引入外部知识

用户反馈机制

大模型应用业务架构

AI Embedded AI嵌入
通常被用来提升现有应用智能化程度，改善用户体验或增加功能

AI Copilot AI助理模式
大模型是用户的合作伙伴
协助用户完成任务

AI Agent AI智能体模式
被设计为独立的代理系统
具有高度自治能力
能代表用户处理事务

大模型应用技术架构

提示词

代表：ChatGPT、文心一言
特点：用户发一句提示词prompt，大模型回一句“输出结果”
本质：在大模型基础上，套了一层聊天应用的壳，调用大模型的解码器，输入参数是 " 提示词 Prompt " ，得到的结果是解码器针对提示词以及综合训练的大模型向量数据根据概率生成的 " 输出结果 "

Agent + Function Calling

1、用户在应用程序中输入 " 提示词 " ；
2、进行函数调用，AI大模型分析提示词，发现需要调用"应用程序" 的API , 这是大模型 "回调"应用/大模型的功能；调用 API 功能完毕后，继续看是否满足 " 提示词 " 的要求，不满足的话继续进行函数调用，直到满足为止继续执行下一步
3、输出符合 " 提示词 " 要求的文本结果；
说明：Agent + Function Calling 技术架构使用非常广泛 , 可以将自己开发的应用功能嵌入到 AI 大模型中 , 将复杂的逻辑分解成更小的/可管理的部分 , 每个部分通过调用不同的函数实现

" RAG = Embeddings + Vector Database " 技术架构

RAG：Retrieval-Augmented Generation，检索增强生成，结合 " Embeddings 嵌入 " 和 " Vector Database 向量数据库 " ，该架构用于自然语言处理领域的 信息检索和生成任务
1、Embeddings 嵌入是把文字转为容易计算的编码向量，是将词语或文本映射到高维向量空间的技术
2、向量数据库Vector Database是一种专门用于存储和检索向量数据的数据库系统 , 可以通过特定的数据结构和算法加速向量之间的比较和匹配过程
执行流程：
a、用户输入 " 提示词 "
b、AI 大模型拿到 " 提示词 " 之后 , 先到 " 向量数据库 " 中 , 检索所有可能与该 " 提示词 " 相关的知识
c、根据 " 提示词 " 从向量数据库中检索出来的知识一起传递给AI 大模型 , 相当于将 " 检索出来的知识 " 追加到了提示词中,后面的 AI大模型执行就相当于Agent+Function Calling 技术架构过程

Fine-tuning 微调技术架构

Fine-tuning：是在一个已有的 AI 大模型基础上 , 进行微调操作
1、要预训练模型 , 初期要有一个已经训练好的 GPT 大模型
2、将预训练模型应用到特定的任务上 , 每个任务要有：输入数据格式、输出要求、评估指标
3、验证数据集评估模型性能 , 如果对结果不满意 , 持续进行超参数调整和 Fine-tuning 策略的优化 , 直到得到满意结果为止