知识图谱数据库:Neo4j ArangoDB
Multi-Agent 提示词工程八条原则
挑战:成本与复杂性
第二组:题目与判卷(Static Definition)
Workflow设计模型
Monitoring
文件即上下文:文件+日志解决失忆和信息不足问题
Transcript(轨迹):完整的思考与调用日志,作为评估的过程证据。
单智能体串行:上下文窗口限制,信息有限
GUI-Agent
文档分割
...
初始化智能体:使用相同系统提示词、工具集、控制框架
Language Agent Tree Search (LATS)
压缩
在线模型:OpenAI Embedding智谱AI Embedding
边
Agent 技术十大挑战
• 如何高效表示多样化领域知识• 如何提升垂域任务规划准确性• 如何增强推理过程的可解释性
构建知识图谱:实体识别关系判别实体聚类
技术挑战
Agent深度推理是指通过获取外部领域知识,并以强化学习+记忆等多种技术能力协同的方式对用户任务进行思考与规划的过程。
文本结构分割:句子切分段落章节
语义摘要
直接交互扩展为外部可交互持久化环境
Prompt LLM参数调优
上线文管理四大核心操作
评估方法
Composition:任务组合
• 通信协议的通用性• 通信性能优化• 安全性与可靠性
演进
Agent和Workflow核心维度对比
扩展阶段:LLM 裁判的规模化(Auto Eval),五维评分量规实现规模化验证
多模态处理:单独处理图片、视频文本+多模态序列混合统一处理
情景:行为规则(系统提示词)程序:few-shot少样本案例(动态提示策略)语义:语义识别和意图识别有效性
规则过滤
输入清晰分类,处理过程和逻辑差异明显
顶级集成工具:MarkerMinerUMarkitdown
• 挑战10:多Agent系统评估与基准测试
阿里云:PAI-LangStudio
• 系统稳定性与可扩展性• 协作式探索与任务分配• 动态优化与反馈机制
SSM(选择性状态空间模型Selective SSM,代表Mamba) 与文件系统的黄金组合
AG-UI(Agent to UI)
优先选 Agent
Factor 1:Natural Language to Tool Calls #自然语言到工具调用
并行召回(向量搜索即语义检索、关键词搜索、知识图谱)、Agentic Search、重排序
辅助当前决策
Prompt压缩
评估指标:准确率召回率命中率(Top-p)
Memory:Context Window+外部文件主智能体在 Think plan 后执行 Save Plan 动作,将宏观战略写入外部记忆存储
Factor 12: Make Your Agent a Stateless Reducer # 原则12:无状态
Document Loader
上下文缓存
图片信息切分:图片解析+文档单独切分图片链接+文档单独切分
总结/摘要
知识图谱检索:问题-实体相似度识别社区聚类检索
检索方法:向量检索关键词检索(BM25)混合检索
Prompts
多Agent联合学习与经验积累的核心在于• 协作式探索• 经验共享• 动态优化
Tracing链路跟踪
动态选择策略(Agent Skills):固定工具集+工具检索工具选择:按需加载,以任务为核心,精准能力治理
测试评估:Agent测试评估标准
数据检索
• MetaGPT、AutoGen实现了多Agent的多轮对话/辩论,从而实现集体决策的效果• ReConcile使用不同的语言模型(ChatGPT、Bard 和 Claude2)来生成不同的Agent,从而一定程度上消解基于单个LLM生成多Agent所可能产生的偏见
短期记忆实时处理
选择
Agent
• 挑战5:多Agent幻觉消减
指令确定目标
Factor 9: Compact Errors into Context Window # 原则9:将错误压缩进上下文窗口
长期记忆:语义记忆:是什么程序记忆:怎么做情景记忆:何时何地做
原则七:引导思维过程
openAI Function
Tools
Navie Rag原生 Rag
RAG 技术全景图(设计模式)
华为云:AgentArts(Versatile)
功能列表:避免两类失败模式,提供清晰任务目标
攻击&防范
Core LCEL(LangChain Expression Language
节点
检索过程优化:Embedding模型优化混合检索与加权重排多查询扩展
隔离
提示链 (Prompt Chaining)
幻觉增强事实校验溯源标注
Corrective Rag纠错型Rag
硬编码启发式:滑动窗口设定规则
10
系统Prompt
离散会话失忆
大小无限制
User Request
Adaptive Rag自适应
国产新兴:OceanBaseGaussDB
Paln and Execute
滑动窗口(加载最近 n 轮思考)、状态总结(加载上一步行动与观察结果)、失败复盘(加载所有失败步骤)
长期记忆持久化
在多Agent系统中,每个Agent通常具有独立的记忆和上下文管理能力。Agent之间的记忆共享和协同学习能力
向量检索
Conversation Buffer(Context Window)
Toolkits
• 任务复杂度量化• 动态路由策略设计
多智能体
信息熵度量
即时检索Agentic Search:主动机制:ReAct渐进式披露+元数据梳理优势:即时信息+高信噪比+探索能力
短期记忆:上线文窗口滑动窗口/对话摘要受限于LLM容量上限
并行化+投票 (Parallel+voting)
Fuction Calling
Multi-Agent
环境沙箱
上下文拼接策略优化分块摘要拼接动态窗口拼接
知识库选择
知识
Hybird Rag混合检索Rag
ACP智能体通信协议
短期记忆草稿纸(Scratpad)
词向量化
语义切分:AI21SemanticTextSplitterBert文本切分
• Suite(题库):一组 Task 的集合,例如客服场景下的测试题集。
原则五:让智能体参与自我改进
LangGraph
在线:爬虫(Scrapy)Wikipedia、Github、Bilibili、网页
多智能体架构模式( Multi-Agent Architecture Pattern)
工具集选择
Models I/O
前级Agent产生的幻觉被后续Agent逐级处理,从而产生幻觉放大的问题。
Agent上下文限制
subagent-n
核心冲突
原则八:并行工具调用极大提升性能
并行化 (Parallelization)
Chains
结果生成评估指标:Bleu、幻觉率ROUGEBERTScore
Lead Agent(Orchestrator)Tools:Rag+MCP+Memory+ run_subagent+complete_task
原则一:像智能体一样思考,理解智能体逻辑
第一组:动态执行(Dynamic Execution)
Presence Penalty
火山引擎:HiAgent+AgentKit
LLMCompiler
目标模糊、步骤动态、需要自主决策 / 多工具协作的开放型任务:1. 多轮智能客服(主动理解意图、转接业务、解决非标准化问题)2. 自主数据分析(用户仅提目标,Agent 自主选工具 / 查数据 / 出结论)3. 复杂业务决策辅助(多信息整合、跨任务协作、动态调整策略)4. 开放域问答 + 工具调用(如联网查信息、调用计算器 / API 完成任务)5. 多角色协作任务(如智能助理、自主办公机器人)
目标明确、步骤固定、规则可量化的标准化任务1. 合规审核、内容安全检测(Voting 模式)2. 固定步骤的数据分析、报告生成Chaining+Parallelism3. 按类型分发的客服工单、任务分配(Routing 模式)4. 单点结果的迭代优化(Optimizer 模式)5. 高风险、对鲁棒性要求极高的确定性判断任务
原则六:先宽后窄的搜索策略
ReAct/CoT
• LLMArena• Sotopia• MAgIC
Agent SkillsAgent工具
• 挑战2:Agent推理资源竞争与高效调度
Factor 2: Own Your Prompts #掌控好你的提示词
• 挑战9:多Agent联合学习与经验积累
多模态内容检索
数据元接入
LangServer
Multimodel Rag多模态Rag
Streaming流式输出
React
防范策略:提示层防御 (Prompt-Level):• 分隔符 (Delimiters)、• XML 标签加固、• 防御性指令架构层防御 (Architectural):• 独立审核模型、• 沙盒隔离、• 输出清洗流程层防御 (Process):• 最小特权原则、• 人机协作
评估器 - 优化器 Evaluator-Optimizer
规则分割:字数切分Token分割滑动窗口切分
Agentic Rag智能体增强 RAG
提示词攻击:直接注入间接注入越狱提示词泄露训练数据投毒
原则四:工具设计与选择至关重要
Factor 6: Launch/Pause/Resume with Simple APIs#原则6:使用简单的API启动/暂停/恢复
LLM和Agent下一代操作系统AIOS:• 六大核心模块:Agent调度器、上下文管理器、内存管理器、存储管理器、工具管理器、权限管理器。
Plan and Solve
增量进度:一次完成一个任务目标,记录更新完成状态
兜底阶段:人类评估捕捉盲区(Human Eval),人类介入捕捉自动化裁判的 “信源偏见” 和 “幻觉”;
上下文管理三类信息
知识提供依据
• Task(题目):单道题目具体的测试用例,包含输入和成功判定标准。
以上下文为中心进行拆分
开源模型:Qwen-EmbeddingBGE
高质量方法:结构化Schema
优先选 Workflow五大模式适配
Transform Chain
动态上下文:感知外部实时信息推理前检索Rag+即时检索Agentic Search
RAG(Retrieval Adanced Generation)
Chat Message
推理前检索(RAG):检索机制:混合检索(关键词检索+向量检索)优势:速度快+成本低+流程成熟
Text Spliter
Async异步执行
AI Agent
工具Tools
搜索算法:相似度评估 Similarity Measures(FLAT)局部敏感哈希(LSH)Local Sensitive Hashing(LSH)倒排索引文件(IVF)Invert Index File(IVF)乘积量化 Product Quantization(PQ)分层可导航小世界(HNSW)
Agent Tolling
起步阶段:从小样本立刻开始(Start Small),做好开头验证,避免潜在问题,后期返工
Batching批处理输入数据
瞬时记忆:未加工原始信息任务结束淘汰
Memory
Agent 构建12条原则Factor
路由 (Routing)
长期记忆
混合架构模式(Hybrid Architecture Pattern)
主流的多Agent框架多由开发者根据任务场景预先定义好Agent之间的协作模式,增加了开发工作量
Reflexion
• 挑战6:多Agent集体决策优化
第三组:基础设施(System Environment)下发指令并行运行测试,收集记录并汇总
Research subagent:流程:研究规划、工具选择、研究循环(调整、决策、行动)
Fallbacks失败回退机制
Agent工具技术
subagent-1
文件系统即为外部长期记忆
知识图谱
Context Engineering(范式转移:从提示工程(战术优化)到上下文设计(架构设计))
Retriever
Temperature
文件即上下文
其他数据库:Postgres、RedisMilvus、Mem0
任务执行多次独立运行,聚合多轮运行结果,投票机制提升置信度 + 鲁棒性
Retrieval
盲目自信:上下文腐烂,未测试,信息缺失导致幻觉
模型微调:对比学习标注回归
数据飞轮
裁剪
总结对话历史:提取任务概览、关键抉择
重排序:Top-kcross-encoder深度语义匹配/ms-marco
后处理工具反馈检索数据后预处理提取核心要点
贪多嚼不烂:一次会话完成所有任务目标
Stop Sequences
Prompt分类:系统提示词和动态提示词
编排器 - 工作者 Orchestrator-Workers
工具反馈观察结果
ReAct 模式
Testing
Vector Store-backed Memory
• 挑战4:异构Agent间通信
大任务拆分独立的子任务,无依赖无传递中间结果
• 微软Simulated Trial and Error(STE)• 反复探索学习API工具的使用实现自演进,主要针对单Agent• 将强化学习(RL)应用于多Agent联合学习,但其协作机制和知识共享能力仍需改进
稳态智能体上线文工程实践
Top_p
AI Agent架构
Output parsers
Storm
• 角色定义的精准生成• 动态优化能力• 多目标权衡
单体式架构模式( Monolithic Architecture Pattern)
Citation subagent:数据应用Agent1. 避免不必要的引用;2. 引用完整的语义单元;3. 让句子碎片化最小化;4. 避免相邻的冗余引用
腾讯云:Tencent Cloud ADP
Factor 4: Tools Are Just Structured Outputs # 工具必须结构化输出
评估
Feedback
数据存储
• 现有基准测试的局限性• 多Agent系统的复杂性• 场景适用性与任务准确性
Reason without observation(REWOO)
• Letta框架:在Agent记忆层面提供虚拟上下文管理,支持智能管理不同存储层级,从而有效扩展上下文。
Outcome(结果):最终的评估标准,是判断 Agent 表现的核心依据。
核心构成要素:角色、背景、任务、约束、示例
静态上下文:出厂设置(身份角色、能力、行为准则)
上线文窗口限制拆解成离散会话,新会话失忆,Session记忆高墙,遗失工作状态和细节
多智能体并行:决策冲突和灾难性合并
条件
• 决策权重比例分配• 流程可引导性• 消除Agent偏见
Community
持计划与结构化
外部记忆系统
A2A(Agent to Agent)
协作
数据生成获取
Agent之间隔离:主Agent做Planing和任务拆解主与子Agent隔离,子Agent之间上下文隔离主Agent避免海量细节导致灾难性遗忘
Factor 8: Own Your Control Flow # 原则8:掌控自己的控制流
专业词向量数据库:ChromaFaissQdrant
技术背景
环境管理
AI Agent解决方案架构师
按需索引
生成策略优化精调、指令微调Answer verification
写入
subagent-2
1.模型分化加剧;2.任务需求分化;3.资源约束加剧
结构化功能任务清单:结构化Schema+Todo List
Customized Chain
原则三:根据任务复杂度匹配投入力度
• 挑战8:多Agent记忆共享
分离 “思考” 与 “执行”:沙箱是 “状态化环境”,隔离 “真实环境的状态”
训练采集器模型:分类模型处理压缩
CoT
Playground
本地存储:对象存储、文件存储、块存储
Conversational
• 记忆存储与检索• 记忆的动态增长与多样性• 安全性与隐私保护
Out Response
通用工具:PyPDFLlamaIndexLangChain
文档解析
解决方案
• Agent请求的优先级调度和资源分配• Agent切换时保证上下文不丢失• 异构Agent的任务多样性和复杂性
大模型
Templates
Agent设计模式
十大挑战详细解析可参考另外一个作品:AI Agent 架构设计之道https://www.processon.com/diagraming/69a7d15328c58f2447d3a18c
Prompt:角色职责限制
智能体两种崩溃模式
Multi-Agent 评估
多模态处理
AgentTestOps Agent评估工程
多Agent系统处理任务的多样性,并提供通用的基准测试能力。• 多轮交互对于Agent交互场景至关重要。• 多Agent系统的效率如何度量。
单点打磨:围绕同一个结果反复修改而非横向选优标准驱动:根据精确标注提供反馈;闭环迭代:满足标准或达成停止条件
Language Model
Map-reduce
• AutoGen的AgentBuilder 据任务场景动态生成求解任务所需的Agent名称、描述等信息,交给GroupChat组成团队求解问题。• AgentVerse动态求解任务
Evaluation
• 如何生成可以调用外部工具、执行代码等能力更强的Agent?• 如何让生成的Agent根据任务场景自主选择协作模式?
Trial(尝试):为了对抗随机性而进行的多次测试(例如运行 10 次),确保结果稳定。
原则二:教会指挥官如何授权
LangChain Universe
Graph Rag知识图谱Rag
Prompt框架模型:背景、目标、风格、语气、受众、格式
LLM
有限资源下进行良好的管理和调度
任务串行化接力:Workflow进行接力,状态和信息传递
评估工具:Rag ASLangSmithLLM-as-a-Judge
• RouteLL 大模型智能路由模型与算法
流水线架构模式(Pipeline-Based Architecture Pattern)
结构化隔离 Agent 内部状态Schema 设计预先定义信息边界和访问权限“隔离” 定义信息边界,“选择” 在边界内活动。
• 挑战1:多模型协同与智能路由
运行时状态对象
Embedding Model
用户交互
LangSmith
多模态内容识别:大模型多模态功能VL专业大模型MonkeyOCR、DS-OCR
通信
• 挑战7:多Agent协作关系拓扑自动生成与优化
Annotation
Workflow
HyDE Rag假设性文档嵌入
MCPModel Context Protocol
Sequential
• Eval Harness:负责发起、并行测试和汇总分数的 “考场系统”。
Vector Store
Agent间不同接口、编程语言、运行环境、功能特性,需支持易购Agent的通信接口与协议
Prompt Engineering
User
1. 串行 workflow:步骤按顺序执行2.独立LLM调用:非单次 prompt 内完成所有步骤3. 显式信息流:上一步输出作为下一步输入
ANP智能体网络协议
• Grader(阅卷):基于评分规则(Rubric)的打分逻辑脚本,实现自动化判分。
技术进展
Agent的角色(包括名称、职责、描述等)定义,周期长且难以适应动态任务需求
Action
Factor 5: Unify Execution State and Business State #统一执行状态和业务状态
Planning
Conversation Summary Memory
• FlowBench•提出工作流的形式化定义,并将文本、代码和流程图三种形式的工作流应用于提升智能体的规划能力,发现不同形式的组合可进一步提升效果• OpenAI的DeepResearch智能体:基于端到端强化学习方法,增强模型自主规划和动态调整策略的能力,并在识别到结果冲突时可回溯进行重新搜索。
向图检索
Factor 3: Own Your Context Window #掌控号你的上线文窗口
• MetaGPT:通过共享消息池和结构化消息体实现Agent间的通信• SuperAGI:采用结构化消息体实现Agent通信
示例Few-shot
Agent知识交接子Agent总结汇报给主Agent
优化方法
记忆类型
Chains as Rest APIS
Lead Prompt四步思考循环:评估、分类(深度优先、广度优先、直接查询)、计划、执行
Basic Reflection
Example Selector
硬件环境
Multi-Agent拆分原则
Paralllelization并行执行多任务
• Agent Harness:将 LLM 包装成 Agent 的代码脚手架,是运行 Agent 的基础框架。
关键信息筛选提取
Self-Discover
• AgentBuilder• 基于任务需求自动生成Agent角色的能力• AutoAgents:支持动态生成Agent,能够根据任务上下文调整Agent的配置
• 挑战3:Agent角色自动生成与优化
演进阶段:注意多智能体的涌现行为,警惕系统 “涌现行为”,评估协作模式合理性。
解决无法提前拆分任务时的并行提效问题。中心 Orchestrator 在任务执行过程中动态拆解子任务给多个 worker 并行完成,最后汇总结果。、子任务非提前定义,而是运行中动态规划拆分。
通用文本类型:PDF、Word、CSV、Markdown、Html、txt...
双阶段架构
Max Length
Prompt进阶:思维连CoT、少样本提示(Few-shot Prompting)、负向约束....
Router
Frequency Penalty
Factor 7: Contact Humans with Tool Calls # 原则7:人机协同