大模型学习
2025-10-20 10:48:14 1 举报
AI智能生成
大模型学习
作者其他创作
大纲/内容
硬件的支持
内存
>8G
GPU
支持CUDA架构
GTX 10以上
Python
语法基础
版本:3.12.10
数据类型
数字
字符串
元组(tuple)
小括号 ( )
列表(list)
使用方括号 [ ]
字典(dict)
json对象
集合(set)
java的Set,使用{}或者set( )
与java的区别
1、java以分号、{}结尾;python以Tab符控制
2、for循环不同,python使用 for item in 元组、集合等
3、java使用else if;python使用elif
4、与或非不同,java使用||、&&、!;python使用and、or、not
5、Python支持单引号、双引号及三引号多行字符串,Java仅支持双引号
6、构造函数:def __init__(self)
框架
深度学习框架
1、PyTorch
2、TensorFlow
web框架
FastAPI
大模型基础原理
基础知识
大模型的认知和解析
主流大模型介绍
deepseek
稀疏注意力机制,对资源降低了30%-40%
Qwen2
GLM系列
LLama系列
GPT系列
Claude
Gemini
核心原理
架构
Transformer架构
核心参数
参数量
B(十亿)、M(百万)
编码器
解码器
自注意力机制
BERT架构
运行原理
如何理解和表示词
大模型处理单元
token
单元的远近亲疏关系
大模型词义的载体和表现特征
如何理解并预测输入的内容
注意力机制
自注意力机制
基于语义的内容生成
预训练、SFT、RLHF
Prompt提示词工程原理
大模型RGA应用开发
自然语言处理关系
RAG(检索增强生成)
核心
通过检索增强生成内容的准确性
应用场景
适用于翻译、对话系统等需要内容生成的场景,通过整合检索到的资料优化输出结果。如:决策支持系统、企业知识管理、智能客服系统
RAU(检索增强理解)
核心
通过注意力机制改进序列建模
应用场景
常见于知识密集型应用(如问答系统),辅助模型理解专业领域知识或复杂逻辑。如:语音识别
RAG基础知识
基础工具链
Langchain框架
简化基于大型语言模型(LLM)的应用程序开发
LangSmith
LangChain 生态中的核心开发运维工具
GraphRAG
解决传统RAG在复杂查询和多跳推理中的局限性
基于图的检索增强生成的RAG
通过图遍历实现多跳推理(如“A事件→B政策→C产业链”)
大模型Agent智能体
LlamaIndex框架应用
Qwen2.5-vl多模态
Agent应用开发
LangGraph框架深度学习
可视化AI开发框架
MCP模型上下文协议
大模型私有化的微调
目的
1、降低成本
2、提高准确率
方式
1、参数高效微调(PEFT)
主流技术
Adapter Tuning
Prompt Tuning
Prefix Tuning
LoRA低秩适配微调
LoRA的改进与扩展
2、监督微调(SFT)
框架
1、unsloth
2、PyTorch框架
3、HuggingFace Transformers框架
大模型量化实现
子主题
子主题
子主题
多模态模型
0 条评论
下一页