1. 四级分级存储体系(生产级标准架构)
2. 多模态统一存储能力
强制每轮持久化:每一轮循环完成后,强制生成全量状态快照,包括任务进度、上下文、中间结果、剩余预算、执行状态,持久化到分布式高可用存储;断点无缝恢复:任务因崩溃、重启、中断后,可直接从最近一次 Checkpoint 快照恢复执行现场,无需从头执行,增量推进任务;版本化管理:支持 Checkpoint 的版本化管理,可回滚到任意历史执行节点,重新执行,满足调试、审计、故障复盘需求。
1. 工具注册中心
3. 幻觉溯源与效果优化
全链路循环防护机制
采用熔断器模式,避免下游系统故障时,Agent 持续调用导致故障扩散、系统雪崩:• 熔断触发条件:当工具调用的失败率超过预设阈值(如 50%)、连续失败次数超过阈值、响应延迟超过阈值,自动触发熔断;• 熔断状态管理: 1. 关闭状态:正常调用,统计失败率; 2. 打开状态:熔断触发,拒绝所有调用,直接返回降级结果; 3. 半开状态:熔断一段时间后,放行少量探测请求,若调用成功则关闭熔断,否则继续保持打开状态;• 熔断隔离:每个工具、每个下游接口独立统计熔断状态,单工具故障不影响其他工具。
决策规则:继续循环:任务未完成、剩余预算 / 轮次充足、无违规行为,自动流转回感知态 OBSERVE,开启下一轮循环;终止任务:终止申请经过 Harness 校验通过、任务完成交付、或不可恢复异常,流转至终态 TERMINATE,完成任务归档、结果交付、复盘结算。
第四层:容错熔断层(高可用保障)【层级核心定位】容错熔断层是工具调用的高可用保障体系,核心目标是解决工具调用超时、失败、下游系统故障等问题,避免 Agent 任务因工具故障中断,同时保护下游系统不被打爆,实现故障隔离与自动兜底。
• 生产级落地细节:1. Token 预算校验:校验当前任务的剩余 Token 预算,工具调用的 Prompt / 结果 Token 预估消耗超过剩余预算,直接拦截; 2. 调用配额校验:校验工具的日 / 月调用配额、QPS 配额,超配额直接拦截或降级; 3. 成本校验:针对付费第三方 API 工具,校验单次调用成本、剩余成本预算,超预算直接拦截。
窗口阈值预警:实时计算当前上下文的 Token 总量,当达到模型上下文窗口的 70% 时,自动触发历史内容压缩、归档、低相关内容清理;滑动窗口机制:针对长会话、长任务,采用滑动窗口机制,始终保留最新的、最相关的核心内容,自动归档过期的、低相关的历史内容到长期记忆,避免窗口溢出;分级注入机制:针对不同复杂度的推理步骤,动态调整上下文注入的范围:简单步骤仅注入超短期 + 短期记忆,复杂规划步骤额外注入相关的长期记忆与业务知识库,平衡推理效果与 Token 消耗。
异常分级:将异常划分为「可重试异常、可回滚异常、需人工介入异常、不可恢复异常」四个等级;分级处置:可重试异常(网络抖动、临时超时):按指数退避策略自动重试,重试时优先切换备用模型 / 工具端点;可回滚异常(执行结果错误、违规操作):自动回滚到上一个健康 Checkpoint,注入错误原因,重新执行;需人工介入异常(高风险操作、合规风险):自动挂起任务,触发人工审核,审核通过后继续执行;不可恢复异常(权限不足、任务非法):直接终止任务,记录审计日志,触发告警。
1. 多维度智能调度引擎
• 原生支持文本、图片、音频、视频、代码、结构化数据、工具执行结果等多模态内容的统一存储与索引;• 针对非文本内容,采用多模态嵌入模型生成向量索引,同时保留原始文件的元数据与权限管控,支持跨模态召回;• 针对代码、结构化数据,额外添加语法标签、业务标签,提升召回精准度,避免幻觉。
• 生产级落地细节: 1. MCP 协议原生兼容:全量兼容 Model Context Protocol 协议,一键接入 MCP 生态的所有工具,无需二次开发; 2. OpenAPI/Swagger 自动适配:导入 OpenAPI/Swagger 配置文件,自动生成工具定义、参数校验规则、调用逻辑,开箱即用; 3. 多协议兼容:原生支持 RESTful API、gRPC、SOAP、JDBC/ODBC、SSH、SFTP 等主流协议,适配企业内部各类系统; 4. 统一接口抽象:向上对核心执行引擎暴露完全标准化的调用接口,LLM 仅需关注工具的功能与入参,无需关心底层协议差异。
摒弃单一的向量相似度召回,采用多维度混合召回策略,大幅提升召回精准度,避免漏召、误召导致的幻觉与任务偏离:向量相似度召回:基于嵌入模型,召回与当前轮次任务目标语义强相关的长期记忆、历史执行结果;关键词与业务标签召回:基于预设的业务关键词、任务标签、工具标签,精准召回强相关的业务规则、工具使用经验;时序权重召回:给近期的记忆内容更高的权重,优先召回最近几轮的执行结果、任务进度,避免历史无关内容干扰当前推理;结构化数据精准召回:针对关系型数据库中的结构化业务数据,支持 SQL 级精准查询召回,避免向量召回的模糊性与不准确性;重排与过滤:召回后采用重排模型,对召回结果进行相关性排序,过滤低相关、冗余、过期的内容,仅保留 Top-N 最相关的内容。
3. 预算与配额校验
记忆与上下文管理模块
步骤 4:沙箱执行(Act)- 对应 ACT 状态
2. 全维度指标监控
步骤 2:受限推理(Think)- 对应 THINK 状态
• 生产级落地细节: 1. Token 预算校验:校验当前任务的剩余 Token 预算,预估上下文注入的 Token 消耗,超预算自动触发压缩、过滤,禁止超预算的上下文注入; 2. 存储配额校验:校验租户 / 任务的存储配额,超配额禁止写入新的记忆数据,触发归档 / 清理流程; 3. 调用频次校验:限制单 Agent / 单任务的记忆召回 / 写入频次,避免高频无效操作导致的资源浪费与性能损耗。
第二层:分级记忆存储层(全域存储中枢・核心骨架)【层级核心定位】分级记忆存储层是整个模块的核心骨架,采用四级分级存储架构,彻底解决单一存储架构带来的「召回不精准、上下文膨胀、性能不足、成本过高」的问题,同时实现租户级隔离、高可用持久化、多模态统一存储。
步骤 5:结果验证(Validate)- 对应 VALIDATE 状态
1. 不可篡改全链路审计
• 生产级落地细节: 1. 租户级隔离校验:校验当前 Agent、用户、任务所属的租户,仅允许访问本租户的记忆分区,禁止跨租户读写; 2. 任务级权限校验:仅允许当前任务访问自身的任务级记忆分区,禁止跨任务读写其他任务的记忆数据; 3. 操作级权限校验:区分只读 / 读写 / 删除权限,比如全局规则记忆仅开放只读权限,禁止 Agent 任何修改 / 删除操作; 4. 临时权限管控:支持任务级临时授权,任务结束后权限自动回收,避免权限泄露。
核心动作:仅当管控校验通过后,才会通过 Harness 工具管理模块,执行对应的动作(工具调用、代码执行、内容生成等)。
主从协同:主 Agent 负责任务拆解与总控,子 Agent 负责子任务执行,子 Agent 的所有状态流转、执行结果,必须经过主 Agent 与 Harness 管控平面的双重校验;并行协同:支持无依赖的子任务并行执行,通过状态机管控子任务的依赖关系,所有子任务完成后再聚合结果;依赖编排:支持子任务的 DAG 依赖编排,严格按照依赖关系流转状态,前置任务未完成、校验未通过,后置任务禁止启动。
Harness 增强型 ReAct Loop - 执行引擎的执行血肉基于有限状态机的刚性骨架,对原生 ReAct 循环进行了全链路的 Harness 增强,形成了生产级可落地的 Loop 执行体。它不是 Agent 自主循环,而是由状态机驱动、Harness 全程管控的确定性循环,彻底解决了原生 ReAct 的不可控问题。
Prompt 标准化注入:将召回的上下文、全局规则、任务目标,按照标准化的模板结构注入 Prompt,固定全局规则的位置,避免被 Agent 忽略、篡改;轮次级按需注入:每一轮循环仅注入与当前步骤强相关的上下文,而非全量历史内容,大幅降低每一轮的 Token 消耗,同时提升推理精准度;与成本管控联动:注入前自动预估 Token 消耗,结合剩余预算动态调整注入内容的范围,优先保障核心规则、关键进度的注入,在预算范围内最大化推理效果。
3. 跨会话记忆管理
与核心执行引擎的持久化态 PERSIST 深度绑定,是长任务高可用的核心保障:强制每轮快照:核心执行引擎每完成一轮循环,本模块强制生成全量 Checkpoint 快照,包括当前任务进度、子任务状态、上下文、记忆数据、剩余预算、执行状态,持久化到高可用存储;100% 断点恢复:Agent 任务因崩溃、重启、中断后,可直接从最近一次 Checkpoint 快照,100% 还原执行现场,无需从头执行,增量推进任务;多版本快照管理:支持快照的多版本管理,可回滚到任意历史执行节点,重新执行,满足调试、审计、故障复盘需求;快照归档与清理:任务完成后,快照自动归档至长期记忆,设置生命周期,过期自动清理,避免存储资源浪费。
核心动作:通过 Harness 模型网关的统一入口,调用 LLM 进行推理,基于感知到的上下文与管控规则,生成下一步动作建议(工具调用、内容生成)或任务终止申请,同时输出清晰的推理链。
1. Checkpoint 快照与断点续跑机制
步骤 3:刚性管控校验(Harness Intercept)- 对应 HARNESS_VERIFY 状态(核心不可绕过环节)
核心解决全量上下文拼接导致的 Token 浪费、上下文腐烂问题,在不丢失核心信息的前提下,最大化压缩上下文长度,提升有效信息占比:多层级压缩策略:无损压缩:去重、格式标准化、冗余内容删除,比如重复的工具定义、重复的系统规则、无效的空内容;有损压缩:针对长文本、长工具返回结果,采用摘要模型生成核心信息摘要,保留关键逻辑与结果,去除无关细节;结构化压缩:将非结构化的对话内容、执行结果,转化为结构化的进度表、状态机、关键节点列表,大幅降低 Token 占用;动态过滤机制:基于当前轮次的任务目标,自动过滤与当前步骤无关的历史内容,仅保留与当前执行动作强相关的信息;有效信息占比管控:实时监控上下文的有效信息占比,强制要求有效信息占比≥70%,低于阈值自动触发二次压缩与过滤,杜绝上下文腐烂。
• 生产级落地细节: 1. 高危操作拦截:内置高危指令黑名单,拦截 Shell 删除系统文件、格式化磁盘、数据库删库、越权提权等高危操作; 2. 注入攻击检测:检测工具调用参数中的 SQL 注入、命令注入、Prompt 注入攻击,拦截恶意参数; 3. 敏感数据校验:检测参数中是否包含未脱敏的身份证、密钥、商业机密等敏感数据,禁止违规外传; 4. 数据出境合规校验:禁止将境内敏感数据通过工具调用传输到境外系统,满足等保、数据安全法合规要求。
核心动作:严格按照 Harness 管控规则,从记忆管理模块召回与当前任务强相关的上下文、历史执行结果、工具返回数据、任务进度状态,同时采集当前任务的剩余预算、剩余轮次、权限范围等管控信息。
Harness 强制落盘内容:Checkpoint 快照:全量保存当前任务的执行状态、进度、上下文、中间结果,支持崩溃后 100% 还原执行现场;记忆更新:将本轮执行的有效信息、经验沉淀到长期记忆,更新任务进度状态;审计日志:将本轮循环的全链路数据(推理内容、校验过程、执行结果、Token 消耗、耗时)写入不可篡改的审计系统,绑定全局 TraceID;预算更新:实时扣减本轮消耗的 Token 预算、执行轮次,同步到 Harness 成本管控模块。
2. 全生命周期管理
分级异常容错与回滚机制
4. 降级兜底策略
• 生产级落地细节: 1. 必填参数校验:校验工具定义的必填参数是否完整,缺失直接打回,要求 LLM 补充; 2. 参数格式校验:校验参数类型、格式、长度是否符合工具定义,格式错误直接打回; 3. 参数范围校验:校验参数是否在预设的合法范围内,超出范围直接拦截; 4. 防重复调用校验:检测是否为相同参数的重复无效调用,避免资源浪费,直接返回缓存的有效结果。
当工具调用失败、熔断、超配额时,自动执行降级兜底策略,保障 Agent 任务的连续性:• 备用工具降级:自动切换到功能相同的备用工具 / 备用接口,比如主搜索引擎故障,自动切换到备用搜索引擎;• 功能降级:关闭非核心功能,返回简化版结果,比如高精度 OCR 故障,自动切换到轻量 OCR;• 缓存降级:返回最近一次的有效缓存结果,适用于非实时性数据查询场景;• 友好失败返回:无法降级时,返回结构化的错误信息,明确告知核心执行引擎失败原因,辅助 LLM 重新规划动作,避免任务直接终止。
1. 多类型分级沙箱体系
第一层:前置管控层(不可绕过的唯一闸口)【层级核心定位】前置管控层是记忆读写、上下文注入的唯一准入闸口,与 Harness 管控平面的权限、安全、预算模块深度联动,所有记忆操作必须经过本层全量校验,校验不通过一律拦截 / 过滤,绝对不允许进入存储 / 召回环节,是 Harness「管控优先」原则的刚性落地。
3. 企业级隔离与高可用设计
流式执行与进度上报能力
流式进度上报:每一轮循环完成后,实时向用户 / 业务系统上报任务进度、当前执行步骤、剩余预算、预计完成时间;增量内容输出:支持生成内容的流式增量输出,无需等待任务全部完成即可看到中间结果;可中断可干预:执行过程中,支持用户随时暂停、终止、修改任务参数,Harness 管控平面实时生效新的规则与要求。
3. 熔断保护机制
实时采集模块全维度运行指标,同步到 Harness 全局监控大盘,核心指标包括:效果指标:上下文有效信息占比、召回准确率、幻觉率、任务完成率、推理精准度;性能指标:召回平均耗时、P95/P99 耗时、写入耗时、缓存命中率、向量查询 QPS;资源指标:存储使用率、记忆膨胀率、GC 清理频率、Token 利用率、配额使用率;安全指标:越权操作拦截次数、敏感数据脱敏次数、违规内容拦截次数、异常操作告警数。
1. 读写权限校验
• 生产级落地细节: 1. 全类型工具纳管:覆盖四大类核心工具,企业级场景开箱即用: • 基础工具:文件 IO、Shell、代码解释器、搜索引擎、浏览器等通用工具; • 企业级工具:数据库、内部 API、ERP、CRM、OA、大数据平台等内部系统工具; • 第三方工具:通用 SaaS API、行业垂直工具、地图、支付等第三方服务; • 动态工具:Agent 通过代码解释器自主生成的临时工具,支持临时注册、生命周期管控; 2. 标准化注册流程:支持可视化注册、代码注册、配置文件注册、OpenAPI/MCP 协议自动导入,无需二次开发; 3. 版本化管理:支持工具的多版本管理、灰度发布、无缝回滚,避免版本升级导致的 Agent 任务失败; 4. 动态上下线:支持工具的实时上下线,下线后所有 Agent 无法调用,故障工具可快速摘除,避免影响整体业务。
仅对可重试的异常执行重试,避免盲目重试导致下游系统压力过大:• 可重试异常判断:仅对网络抖动、连接超时、下游系统 5xx 错误、临时限流等可重试异常执行重试,对参数错误、权限不足、内容违规等不可重试异常,直接返回失败;• 指数退避重试:采用指数退避算法,每次重试的等待时间递增(1s→2s→4s→8s),避免重试风暴;• 重试实例切换:重试时优先切换到备用接口 / 备用节点,避免在同一个故障节点上重复重试,提升重试成功率;• 最大重试次数限制:配置最大重试次数(典型 3 次),超过次数后停止重试,触发降级兜底。
Agent 执行平面(中层)核心执行引擎主体)
步骤 6:状态持久化(Persist)- 对应 PERSIST 状态
Harness 管控点:系统 Prompt 全程锁死,禁止 Agent 修改、忽略、覆盖,从根源上杜绝 Prompt 注入攻击;严格限制推理的 Token 消耗,禁止超出单轮 Token 预算;强制要求模型输出结构化的推理链、动作参数、终止理由,为后续校验提供依据;推理请求必须经过模型网关的智能路由、成本管控,禁止直连模型 API。
核心状态流转规则(不可突破)线性流转原则:正常流程必须严格遵循「INIT→OBSERVE→THINK→HARNESS_VERIFY→ACT→VALIDATE→PERSIST」的线性流转,禁止跳步;唯一闸口原则:所有动作执行、任务终止,必须经过HARNESS_VERIFY 管控校验态,这是唯一放行闸口,无任何旁路;打回重跑原则:校验不通过的请求,一律打回推理态 THINK,注入明确的错误原因与优化要求,禁止直接执行;异常兜底原则:任何环节的异常,必须统一进入 EXCEPTION 异常态,按预设规则分级处置,禁止静默失败、禁止无规则跳转。
• 核心职责:统一纳管所有类型的工具,实现工具的全生命周期管理。
全量操作日志落盘:记录每一次记忆操作的全链路数据,包括:TraceID、任务 ID、Agent 实例 ID、租户 ID、用户 ID、操作时间、操作类型、操作内容、权限校验结果、执行状态、耗时,写入不可篡改的分布式存储,永久归档;全链路追溯能力:支持通过 TraceID、任务 ID、用户 ID、时间范围、操作类型等多维度,快速检索审计日志,完整还原记忆操作的全过程,实现故障可排查、责任可认定;合规审计报表:自动生成日 / 月 / 季合规审计报表,包括敏感数据脱敏情况、越权操作拦截次数、数据访问合规率、记忆生命周期管理情况,满足等保、行业监管要求。
2. 安全合规与脱敏管控
• 核心职责:管控记忆操作带来的 Token 消耗、存储成本,避免预算超支、资源浪费。
• 多维度告警规则:支持工具调用失败率超标、延迟突增、熔断触发、高危操作拦截、越权调用尝试、配额用尽、预算超支等多维度告警,支持自定义告警阈值;• 多渠道通知:支持邮件、企业微信、钉钉、短信、webhook 等多渠道告警推送,按告警等级推送给对应的负责人;• 告警联动处置:支持告警触发后自动执行熔断、降级、摘机等处置动作,实现故障的自动化闭环处理,减少人工介入成本。
有限状态机(FSM)执行引擎的刚性骨架有限状态机是生产级执行引擎的核心,它彻底终结了原生 Agent「无边界自由循环」的不可控问题,将 Agent 的全生命周期固化为预定义、可校验、可管控的状态流转规则,所有状态跳转必须经过 Harness 校验,是 Harness「可控优先」原则的刚性落地。
有限状态机(FSM)执行引擎的刚性骨架
用户级记忆画像:基于用户的历史会话、任务执行记录,自动沉淀用户偏好、业务习惯、专业领域、交互规则,跨会话复用,提升用户体验;任务级跨会话恢复:支持中断的任务跨会话恢复,从归档的 Checkpoint 快照还原任务现场,继续执行;业务知识沉淀:自动从完成的任务中,提取可复用的业务经验、工具使用技巧、问题解决方案,沉淀到企业级知识库,供全平台 Agent 复用,形成学习闭环。
生产级核心特性(Demo 与生产级的核心分水岭)
• 全量审计日志落盘:记录每一次工具调用的全链路数据,包括:TraceID、任务 ID、Agent 实例 ID、租户 ID、用户 ID、调用时间、工具名称、入参、出参、执行耗时、状态、错误信息、权限校验结果,写入不可篡改的分布式存储,永久归档;• 全链路追溯:支持通过 TraceID、任务 ID、工具名称、时间范围、租户 ID 等多维度,快速检索审计日志,完整还原工具调用的全过程,实现故障可排查、责任可认定;• 合规审计报表:自动生成日 / 月 / 季合规审计报表,包括高危操作拦截次数、越权调用尝试、敏感数据传输情况、工具调用合规率,满足等保、行业监管要求。
第四层:生命周期与持久化层(长任务支撑核心)【层级核心定位】本层是 Agent 长周期、跨会话、多步骤复杂任务的核心支撑,核心目标是实现 Agent 执行状态的全量持久化、断点续跑、生命周期全链路管理,彻底解决长任务崩溃后无法恢复、记忆无限膨胀、历史数据混乱的问题。
2. 执行环境全管控
• 生产级落地细节: 1. 主体权限校验:校验当前 Agent 实例、租户、用户、任务,是否在该工具的授权白名单内,非授权主体直接拦截; 2. 操作级权限校验:校验申请的操作类型是否在授权范围内,比如文件工具仅授权只读权限,禁止写入 / 删除操作;DB 工具仅授权 SELECT 查询权限,禁止 UPDATE/DELETE 操作; 3. 范围级权限校验:校验操作的资源范围是否在授权边界内,比如文件工具仅允许访问指定目录,禁止访问系统目录 / 其他租户目录;API 工具仅允许调用指定接口,禁止越权访问其他接口; 4. 临时权限管控:支持任务级临时授权,任务结束后权限自动回收,避免权限泄露。
有限状态机是生产级执行引擎的核心,它彻底终结了原生 Agent「无边界自由循环」的不可控问题,将 Agent 的全生命周期固化为预定义、可校验、可管控的状态流转规则,所有状态跳转必须经过 Harness 校验,是 Harness「可控优先」原则的刚性落地。
第三层:上下文智能调度层(执行引擎联动核心・执行血肉)【层级核心定位】上下文智能调度层是本模块与核心执行引擎联动的核心,是解决 LLM「上下文腐烂、窗口溢出、幻觉频发」三大痛点的关键。核心目标是在有限的上下文窗口内,最大化有效信息占比,为 LLM 每一轮推理提供最精准、最必要的上下文,同时严格控制 Token 消耗。
• 核心职责:校验工具调用参数的合法性、完整性,避免参数错误导致的调用失败、下游系统异常。
标准状态定义(生产级全场景覆盖)我们将 Agent 全生命周期划分为 9 个预定义状态,覆盖正常执行、异常处理、终止归档全场景,每个状态的职责、准入条件、流转规则完全固化,不可修改。【有限状态机FSM】执行骨架(不可修改、不可绕过、不可突破)INIT → OBSERVE → THINK → HARNESS_VERIFY → ACT → VALIDATE→ PERSIST → TERMINATE/LOOP异常态EXCEPTION全链路拦截兜底
4. 精准注入与规则锁定
2. 安全合规校验
Harness 管控点:仅注入授权范围内的信息,禁止越权访问其他任务、其他租户的记忆数据;自动对上下文进行压缩、去重、过滤,避免上下文腐烂,控制 Prompt Token 消耗;强制注入当前任务的剩余预算、剩余轮次、规则要求,禁止 Agent 忽略管控约束
• 生产级落地细节:1. 标准化元数据定义:每个工具包含唯一 ID、名称、功能描述、入参 / 出参定义、权限要求、调用配额、超时时间、风险等级、合规要求等标准化元数据; 2. LLM 友好的描述规范:遵循 Function Call 最佳实践,优化工具描述、参数描述,大幅提升 LLM 工具调用的准确率,减少幻觉与参数错误; 3. 元数据权限管控:不同权限的 Agent,仅能看到授权范围内的工具元数据,非授权工具完全不可见,避免越权调用尝试; 4. 元数据动态更新:工具版本、权限、配置变更后,元数据实时同步,无需重启 Agent 实例。
• 核心职责:管控工具调用带来的 Token 消耗、API 调用成本,避免预算超支、下游系统打爆。
工具管理模块
Harness 管控点:所有工具调用必须在 Harness 工具管理模块的沙箱中执行,实现路径隔离、权限隔离、资源隔离;工具调用的参数、范围必须经过二次校验,禁止执行超出校验范围的操作;内置工具调用的超时控制、熔断降级、重试机制,避免下游系统故障导致任务失败;全量记录工具调用的入参、出参、耗时、结果,写入审计日志。
2. 上下文智能压缩与过滤
Harness 核心校验项:权限校验:校验动作是否在 Agent 的授权范围内,禁止越权调用工具、访问数据;合规校验:校验动作是否符合安全合规规则,拦截高危操作、违规内容;预算校验:校验剩余 Token 预算、剩余执行轮次,超预算直接拦截;规则校验:校验动作是否符合任务规则、交付规范,禁止偏离任务目标;终止申请校验(Ralph Loop 核心):拦截所有任务终止申请,基于原始任务目标、交付标准,校验交付物的完整性、正确性,不达标直接驳回终止申请,强制 Agent 继续执行。
• 核心职责:为 LLM 推理、前置校验、权限管控提供精准的元数据支撑,同时优化 LLM 工具调用的准确率。
• 结果标准化处理:对工具返回的结果进行格式化、去重、过滤、脱敏处理,去除冗余内容、敏感信息,仅保留与任务强相关的核心信息,减少 Token 消耗,避免上下文腐烂;• 智能缓存机制:对相同参数、相同权限的只读工具调用结果,进行缓存,设置合理的过期时间,避免重复调用带来的资源浪费、成本消耗,同时提升 Agent 执行效率;• 异常结果格式化:对工具调用的异常、错误信息,进行结构化封装,明确错误类型、错误原因、修复建议,辅助 LLM 快速修正错误,重新规划动作。
4. 参数合法性校验
针对 Agent 高频使用的代码解释器,提供生产级专属沙箱能力:• 预配置安全的 Python/Node.js 等运行环境,禁用高危系统库、高危函数;• 支持自定义依赖包白名单,禁止安装未授权的第三方依赖;• 代码执行全链路日志记录,支持审计与回溯;• 执行超时自动终止,避免死循环占用资源。
• 租户级隔离:支持软隔离(逻辑分区)与硬隔离(物理存储实例)两种模式,金融、政务等强合规场景支持物理机独占、存储实例独占,彻底杜绝数据交叉访问;• 加密存储:所有记忆数据采用传输加密 + 存储加密双加密模式,敏感数据采用国密算法加密,满足等保三级合规要求;• 高可用持久化:所有持久化存储采用多副本、异地容灾架构,支持数据备份与恢复,杜绝数据丢失;• 读写分离:针对高频读取的长期记忆,采用读写分离架构,提升召回性能,避免写入操作影响读取效率。
核心动作:由 Harness 管控平面,基于任务状态、校验结果、剩余预算,最终决策是继续循环还是终止任务,Agent/LLM 无最终决策权。
硬上限管控:预设最大执行轮次、单任务总 Token 预算、单轮最大 Token 消耗、总执行超时时间,不可突破;死循环检测:自动识别重复执行相同动作、无实质进展的循环,触发告警、打回优化、直至熔断终止;上下文腐烂检测:实时监控上下文的有效信息占比,当冗余信息占比超过阈值,自动触发上下文压缩、清理,避免推理质量下降;预算实时管控:每轮循环实时扣减 Token 预算,达到阈值自动触发限流、降级、熔断,杜绝预算超支。
Harness 增强型 ReAct Loop - 执行引擎的执行血肉
3. 结果标准化处理与缓存
核心动作:强制完成本轮循环的全量状态持久化,为断点续跑、审计溯源、故障恢复提供支撑。
【第一层:前置管控层】与Harness管控平面联动(不可绕过的闸口)前置管控层是工具调用的唯一准入闸口,与 Harness 管控平面的权限、安全、预算模块深度联动,所有工具调用申请必须经过本层全量校验,校验不通过一律拦截,绝对不允许进入执行环节,是 Harness「管控优先」原则的刚性落地。
1. 全链路超时控制
2. 多协议原生适配
第五层:观测审计层(全链路可追溯闭环)【层级核心定位】观测审计层是本模块的闭环优化载体,与 Harness 可观测治理模块深度联动,实现记忆全生命周期操作的 100% 可观测、可审计、可追溯、可优化,满足企业内控、合规审计、故障排查、效果优化需求。
3. 上下文窗口动态管控
第二层:注册与适配层(工具标准化中枢)【层级核心定位】注册与适配层是工具的标准化管理中枢,负责所有工具的注册、元数据管理、多协议适配、动态上下线,实现「一次注册、全平台复用、多 Agent 安全共享」,彻底解决工具碎片化、适配成本高的问题。
步骤 7:循环 / 终止决策(Loop/Terminate)- 对应 TERMINATE/OBSERVE 状态
• 核心职责:校验记忆操作的合法性,拦截无效、非法、重复的读写请求。
3. 代码解释器专属沙箱
Checkpoint 断点续传机制
多 Agent 协同调度能力
实时采集工具调用的全维度指标,同步到 Harness 全局监控大盘,核心指标包括:• 可用性指标:调用成功率、失败率、熔断次数、降级次数、重试次数;• 性能指标:平均响应耗时、P95/P99 耗时、连接耗时、执行耗时;• 流量指标:QPS、日 / 月调用量、并发量、配额使用率;• 成本指标:工具调用总成本、单次调用平均成本、预算消耗进度;• 安全指标:高危操作拦截次数、越权调用拦截次数、注入攻击拦截次数。
• 核心职责:拦截高危操作、违规指令、注入攻击,杜绝安全风险与合规问题。
2. 智能重试机制
4. 告警与通知体系
第五层:观测审计层(全链路可追溯闭环)【层级核心定位】观测审计层是工具管理模块的闭环优化载体,与 Harness 可观测治理模块深度联动,实现工具调用全链路的 100% 可观测、可审计、可追溯、可优化,满足企业内控、合规审计、故障排查需求。
• 核心职责:严格执行最小权限原则,校验 Agent 是否拥有该工具的调用权限,以及操作范围的权限。
步骤 1:受控感知(Observe)- 对应 OBSERVE 状态
核心动作:对执行结果进行多维度自动校验,确保结果符合要求,将错误闭环在系统内部,不流出到用户 / 生产环境。
1. 混合式智能召回引擎
核心动作:Harness 管控平面全量拦截 LLM 生成的动作建议 / 终止申请,执行多维度刚性校验,这是整个 Loop 的唯一放行闸口,校验不通过一律打回,禁止执行。
• 核心职责:抹平不同工具的协议差异,向上提供标准化的调用接口,对核心执行引擎与 LLM 完全透明。
幻觉溯源能力:基于记忆召回日志、上下文注入日志、推理链日志,可追溯幻觉产生的原因,比如召回错误、上下文缺失、信息过期等,针对性优化召回策略与记忆内容;效果闭环优化:基于任务完成情况、效果校验结果,自动优化召回策略、压缩规则、生命周期配置,比如频繁漏召的内容提升权重,频繁误召的内容调整标签,持续提升上下文管理效果;告警与通知体系:支持召回准确率下降、幻觉率上升、存储超配额、越权操作、敏感数据泄露风险等多维度告警,支持自定义阈值,多渠道推送告警通知,同时支持告警触发自动处置动作。
Harness 校验项:正确性校验:校验结果是否符合动作预期,是否存在幻觉、逻辑错误、代码语法错误;格式校验:校验结果是否符合预设的结构化格式、交付规范;合规校验:校验结果是否存在敏感内容、违规信息、数据泄露风险;目标对齐校验:校验结果是否推动任务向最终目标推进,是否存在无效执行、循环执行。处置规则:校验通过进入下一步;校验不通过,直接打回推理态,注入明确的错误原因与优化要求,强制重跑;严重违规直接进入异常态。
• 核心职责:严格执行最小权限原则,校验 Agent 对记忆分区的读写权限,杜绝越权访问。
• 核心职责:拦截敏感数据明文存储、违规内容写入、越权信息注入,杜绝数据泄露与合规风险。
4. 读写准入校验
• 资源限制:为每个沙箱实例配置独立的 CPU、内存、磁盘、网络带宽上限,避免 Agent 执行耗资源操作导致宿主系统崩溃;• 网络管控:基于白名单管控沙箱的网络访问权限,仅允许访问授权的 IP / 域名,禁止公网访问、内网横向访问;• 文件系统隔离:每个租户、每个任务分配独立的虚拟文件系统,禁止跨租户、跨任务访问文件,任务结束后自动清理临时文件;• 生命周期管控:沙箱实例与 Agent 任务生命周期绑定,任务启动创建沙箱,任务结束自动销毁沙箱,无残留、无泄露。
• 生产级落地细节: 1. 写入前强制脱敏:所有待写入记忆的内容,必须先经过 PII 敏感信息识别与脱敏,包括身份证、手机号、API 密钥、商业机密、个人隐私等,支持不可逆脱敏与格式保留加密两种模式,绝对禁止敏感数据明文存入存储系统; 2. 违规内容过滤:拦截涉政、涉黄、涉暴、违法违规内容的写入,避免违规内容被召回注入 Prompt,导致合规风险; 3. 数据出境合规校验:禁止境内敏感数据写入境外部署的存储系统,满足数据安全法、等保 2.0 合规要求; 4. 全局规则锁定:全局规则记忆采用只读存储,仅管理员可通过管控平面修改,Agent 任何修改、覆盖、忽略规则的操作一律拦截。
基于工具的风险等级,采用分级沙箱隔离策略,平衡安全性与执行效率:高风险:Shell、代码解释器、系统操作工具,采用轻量级虚拟机 / 容器沙箱,完全隔离宿主环境,独立 CPU、内存、文件系统、网络权限,禁止访问宿主资源;中风险:文件 IO、数据库、内部 API 工具,采用命名空间 / 权限沙箱,路径隔离、操作范围隔离、账号权限隔离,仅能访问授权资源;低风险:只读搜索引擎、公开数据 API 工具,采用接口代理沙箱,网络隔离、参数校验、结果过滤,仅允许访问白名单内的地址
• 生产级落地细节: 1. 操作合法性校验:校验记忆操作的类型、范围、格式是否符合预设规则,非法操作直接拦截; 2. 重复写入过滤:检测是否为相同内容的重复写入,避免冗余数据占用存储、污染记忆库; 3. 上下文注入准入:仅允许与当前轮次任务目标强相关的内容注入 Prompt,禁止无关内容的强制注入。
3. 工具元数据管理
针对不同层级的记忆,设置精细化的生命周期管理规则,避免记忆无限膨胀、数据混乱:生命周期分级配置:超短期记忆:轮次结束后自动清理,无残留;短期记忆:与会话生命周期绑定,会话结束后,可配置自动归档至长期记忆、临时保留 7 天、立即清理三种模式;长期记忆:支持永久存储、按时间过期、按访问频率过期三种模式,比如 180 天未访问的记忆自动归档到冷存储;全局规则记忆:永久生效,仅管理员可修改 / 删除;自动 GC 清理机制:内置垃圾回收机制,自动清理过期、无效、重复、低价值的记忆数据,释放存储资源,同时记录 GC 日志,写入审计系统;冷热数据分离:高频访问的热数据存放在高性能缓存 / 热存储,低频访问的冷数据自动归档到低成本冷存储,平衡性能与存储成本。
采用三级超时控制策略,覆盖工具调用全生命周期,避免请求无限等待:• 连接超时:与下游系统建立连接的最大等待时间,典型配置 1-3s,超时自动重试;• 执行超时:工具执行的最大等待时间,根据工具类型配置(如 API 调用 5s、代码执行 30s),超时自动终止执行;• 总请求超时:从发起调用到收到结果的最大总时长,超过阈值直接终止,返回异常信息给核心执行引擎。
第三层:沙箱执行层(安全执行载体)【层级核心定位】沙箱执行层是工具调用的安全执行载体,核心目标是实现工具执行与宿主环境、租户环境、业务系统的完全隔离,避免 Agent 越权操作、系统破坏、数据泄露,是企业级 Agent 落地的核心安全屏障。