AI Agent 知识图谱
2025-11-03 22:52:14 0 举报
AI智能生成
公众号:想用AI改变世界的X同学,关注可免费获取
作者其他创作
大纲/内容
1.基础理论与概念
Agent起源与演进
学术定义:具有自主性、反应性、主动性和社交能力特征的智能实体
自主性:智能体能够在没有人类或其他实体的直接干预下运行,并对其行为和内部状态具有一定的控制能力。也即智能体不仅应该具备按照明确的人类的指令完成任务的能力,还应该具备独立启动和执行行动的能力。
反应性:智能体能够对环境中的即时变化和刺激做出快速响应的能力。也即智能体能够感知其周围环境的变化,并迅速采取适当的行动。
主动性:智能体不仅仅是对环境做出反应,而且也需要具备主动采取行动来展示出以目标为导向的能力。该属性强调智能体能够进行推理、制定计划并采取主动措施来实现特定目标或适应环境变化。
社交能力:智能体与其他智能体(包括人类)通过某种通信语言进行交互的能力。
演进路径
AI时代演进:机器学习时代->LLM时代->agent时代
机器学习时代: 能力 = f(模型参数)
大模型时代: 能力 = f(模型参数, 提示词)
智能体时代: 能力 = f(模型参数, 提示词, 交互机制)
Agent定义与核心思想
Agent(智能体)是一种能够感知环境、进行决策和执行动作的智能实体
概念框架
概念框架1
概念框架示意图
框架模块
Profile
概念:定义和管理Agent角色的特性和行为
生成方式
LLM生成方法
数据集对齐方法
组合方法
Memory
概念:它存储和组织从环境中获取的信息,以指导未来行动
类型
短期记忆
长期记忆
数据格式
自然语言
向量数据
Planning
概念:帮助Agent将复杂的任务分解为更易处理的子任务,并制定出有效的策略
类型
不依赖反馈
单路径推理
多路径推理
基于反馈
Action
概念:职责是将抽象的决策转化为具体的行动,它就像是一个桥梁,连接了Agent的内部世界与外部环境
参考文献:《A survey on large language model based autonomous agents》
概念框架2
概念框架示意图
框架模块
Brain(大脑)
Knowledge
概念:在大规模数据集上训练的语言模型可以将各种知识编码到其参数中,并对各种类型的查询做出正确的反应
类型
语言知识
常识知识
专业领域知识
Memory
概念:存储Agent过去的观察、思考和行动序列
类型
感觉记忆
短期记忆
长期记忆
LLM-based Agent增强记忆能力
提高Trransformer的输入长度限制
总结记忆
用向量或数据结构压缩记忆
检索指标
最近性(Recency)
相关性(Relevance)
重要性(Importance)
Planing/Reasoning
概念:推理以证据和逻辑为基础,是人类智力活动的根本,是解决问题、决策和批判性分析的基石
类型
不依赖反馈
依赖反馈
Perception(感知)
概念:是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。
分类
文本输入
视觉输入
听觉输入
其他输入
Action(行动)
概念:人类在感知环境后,大脑会对感知到的信息进行整合、分析和推理,并做出决策。随后,他们利用神经系统控制自己的身体,做出适应环境或创造性的行动,如交谈、躲避障碍或生火
分类
文本输出
工具使用
具身行动
智能体类型
单agent
BabyAGI
AutoGPT
HuggingGPT
GPT-Engineer
Samantha
AppAgent
OS-Copilot
Langgraph
等等
多agent
斯坦福虚拟小镇
MetaGPT
AutoGen
ChatDEV
GPTeam
GPT Researcher
等等
参考文献:网络热门Agents
2.应用架构与设计模式
通用系统架构
分支主题
核心组件
Planning-规划
策略:子目标分解、思维链、思维树、思维图
反思机制:自我批评、错误检查、计划修正
Tools-工具
调用外部工具使用
Memory-记忆
架构:工作记忆(当前上下文)、短期记忆(近期交互)、长期记忆(外部存储)
读写操作:检索、存储、更新、遗忘策略
Action-行动
动作空间:工具函数集、API集合、可执行操作
动作选择:基于推理的工具调用、函数参数生成
分支主题
设计模式
COT链式思考模式
ReAct模式
示意图
本质上所有的 Agent 设计模式都是将人类的思维、管理模式以结构化prompt的方式告诉大模型来进行规划,并调用工具执行,且不断迭代的方法—,(格式为Quesion->Thought->Action->Observation)和用户的问题进行合并
Plan and solve 模式
示意图
规划期:负责让 LLM 生成一个多步计划来完成一个大任务。代码中有 Planner 和和 Replanner,Planner 负责第一次生成计划;Replanner 是指在完成单个任务后,根据目前任务的完成情况进行 Replan,所以 Replanner 提示词中除了 Zeroshot,还会包含:目标,原有计划,和已完成步骤的情况。
执行器:接受用户查询和规划中的步骤,并调用一个或多个工具来完成该任务。
Reason without Observa
示意图
Planner:负责生成一个相互依赖的“链式计划”,定义每一步所依赖的上一步的输出。
Worker:循环遍历每个任务,并将任务输出分配给相应的变量。当调用后续调用时,它还会用变量的结果替换变量。
Solver:求解器将所有这些输出整合为最终答案。
LLMCompiler模式
示意图:
Basic Reflection模式
示意图:
Reflexion模式
示意图:
Language Agent Tree Search模式
示意图:
Self-Discover模式
示意图:
Storm模式
参考文献1
参考文献2
子主题3
3.核心组件与技术实现
开发框架
可视化平台(类似于AI Agent低代码平台)
Dify
Coze
Flowise
开发框架
LangChain / LangGraph
AutoGen
LazyLLM
Pydantic AI
LlamaIndex
CrewAI
流程编排
AFlow
GPTSwarm
OSDL
Gorilla
模型路由
OrchestraLLM:高效协调对话状态跟踪语言模型
RouteLLM:利用偏好数据学习路由LLMS
记忆
增强记忆
Mluti agent 记忆共享
长期记忆机制
记忆潜能
Mluti agent 路径规划内存共享技术
协议
MCP协议
Google A2A
Prompt生成与优化
6.挑战与前沿
可靠性:幻觉、错误传播
效率与延迟:思考步骤多,耗时较长。
成本:大量API调用费用高昂
长程规划与上下文管理:复杂任务规划能力有限。
5.测试、评估与治理
测试评估
评估体系
评估维度
评估基准
合规治理及安全
4.开发技术栈与平台
开发框架
Java+Spring AI
Go+Eino(主流应用选择)
Python+LangChain
全景技术图
示意图
收藏
0 条评论
下一页