首页  思维导图  详情

AI Agent 知识图谱

2025-11-03 22:52:14   0  举报





AI智能生成

公众号：想用AI改变世界的X同学，关注可免费获取

作者其他创作

大纲/内容

1.基础理论与概念

Agent起源与演进

学术定义：具有自主性、反应性、主动性和社交能力特征的智能实体

自主性：智能体能够在没有人类或其他实体的直接干预下运行，并对其行为和内部状态具有一定的控制能力。也即智能体不仅应该具备按照明确的人类的指令完成任务的能力，还应该具备独立启动和执行行动的能力。

反应性：智能体能够对环境中的即时变化和刺激做出快速响应的能力。也即智能体能够感知其周围环境的变化，并迅速采取适当的行动。

主动性：智能体不仅仅是对环境做出反应，而且也需要具备主动采取行动来展示出以目标为导向的能力。该属性强调智能体能够进行推理、制定计划并采取主动措施来实现特定目标或适应环境变化。

社交能力：智能体与其他智能体（包括人类）通过某种通信语言进行交互的能力。

演进路径

AI时代演进：机器学习时代->LLM时代->agent时代

机器学习时代：能力 = f(模型参数)

大模型时代：能力 = f(模型参数, 提示词)

智能体时代：能力 = f(模型参数, 提示词, 交互机制)

Agent定义与核心思想

Agent（智能体）是一种能够感知环境、进行决策和执行动作的智能实体

概念框架

概念框架1

概念框架示意图

框架模块

Profile

概念：定义和管理Agent角色的特性和行为

生成方式

LLM生成方法

数据集对齐方法

组合方法

Memory

概念：它存储和组织从环境中获取的信息，以指导未来行动

类型

短期记忆

长期记忆

数据格式

自然语言

向量数据

Planning

概念：帮助Agent将复杂的任务分解为更易处理的子任务，并制定出有效的策略

类型

不依赖反馈

单路径推理

多路径推理

基于反馈

Action

概念：职责是将抽象的决策转化为具体的行动，它就像是一个桥梁，连接了Agent的内部世界与外部环境

参考文献：《A survey on large language model based autonomous agents》

概念框架2

概念框架示意图

框架模块

Brain（大脑）

Knowledge

概念：在大规模数据集上训练的语言模型可以将各种知识编码到其参数中，并对各种类型的查询做出正确的反应

类型

语言知识

常识知识

专业领域知识

Memory

概念：存储Agent过去的观察、思考和行动序列

类型

感觉记忆

短期记忆

长期记忆

LLM-based Agent增强记忆能力

提高Trransformer的输入长度限制

总结记忆

用向量或数据结构压缩记忆

检索指标

最近性（Recency）

相关性（Relevance）

重要性（Importance）

Planing/Reasoning

概念：推理以证据和逻辑为基础，是人类智力活动的根本，是解决问题、决策和批判性分析的基石

类型

不依赖反馈

依赖反馈

Perception（感知）

概念：是将Agent的感知空间从纯文字领域扩展到包括文字、听觉和视觉模式在内的多模态领域。

分类

文本输入

视觉输入

听觉输入

其他输入

Action（行动）

概念：人类在感知环境后，大脑会对感知到的信息进行整合、分析和推理，并做出决策。随后，他们利用神经系统控制自己的身体，做出适应环境或创造性的行动，如交谈、躲避障碍或生火

分类

文本输出

工具使用

具身行动

智能体类型

单agent

BabyAGI

AutoGPT

HuggingGPT

GPT-Engineer

Samantha

AppAgent

OS-Copilot

Langgraph

等等

多agent

斯坦福虚拟小镇

MetaGPT

AutoGen

ChatDEV

GPTeam

GPT Researcher

等等

参考文献：网络热门Agents

2.应用架构与设计模式

通用系统架构

分支主题

核心组件

Planning-规划

策略：子目标分解、思维链、思维树、思维图反思机制：自我批评、错误检查、计划修正

Tools-工具

调用外部工具使用

Memory-记忆

架构：工作记忆（当前上下文）、短期记忆（近期交互）、长期记忆（外部存储）读写操作：检索、存储、更新、遗忘策略

Action-行动

动作空间：工具函数集、API集合、可执行操作动作选择：基于推理的工具调用、函数参数生成

分支主题

设计模式

COT链式思考模式

ReAct模式

示意图

本质上所有的 Agent 设计模式都是将人类的思维、管理模式以结构化prompt的方式告诉大模型来进行规划，并调用工具执行，且不断迭代的方法—，(格式为Quesion->Thought->Action->Observation)和用户的问题进行合并

Plan and solve 模式

示意图

规划期：负责让 LLM 生成一个多步计划来完成一个大任务。代码中有 Planner 和和 Replanner，Planner 负责第一次生成计划；Replanner 是指在完成单个任务后，根据目前任务的完成情况进行 Replan，所以 Replanner 提示词中除了 Zeroshot，还会包含：目标，原有计划，和已完成步骤的情况。

执行器：接受用户查询和规划中的步骤，并调用一个或多个工具来完成该任务。

Reason without Observa

示意图

Planner：负责生成一个相互依赖的“链式计划”，定义每一步所依赖的上一步的输出。

Worker：循环遍历每个任务，并将任务输出分配给相应的变量。当调用后续调用时，它还会用变量的结果替换变量。

Solver：求解器将所有这些输出整合为最终答案。

LLMCompiler模式

示意图:

Basic Reflection模式

示意图:

Reflexion模式

示意图: