首页  流程图  详情



 



Harness工程-Agent执行平面

2026-04-18 17:34:26   0  举报





执行平面三大核心模块（Harness 的执行载体）执行平面是 Harness 管控规则的落地载体，是 Agent 执行任务的核心链路，所有模块的行为均受控于管控平面。 1. 核心执行引擎模块（Agent 的心脏） 2. 工具与能力管理模块（Agent 的手脚） 3. 记忆与上下文管理模块（Agent 的大脑记忆）

Harness

Agent

模板推荐

作者其他创作

大纲/内容

1. 四级分级存储体系（生产级标准架构）

2. 多模态统一存储能力

强制每轮持久化：每一轮循环完成后，强制生成全量状态快照，包括任务进度、上下文、中间结果、剩余预算、执行状态，持久化到分布式高可用存储；断点无缝恢复：任务因崩溃、重启、中断后，可直接从最近一次 Checkpoint 快照恢复执行现场，无需从头执行，增量推进任务；版本化管理：支持 Checkpoint 的版本化管理，可回滚到任意历史执行节点，重新执行，满足调试、审计、故障复盘需求。

1. 工具注册中心

3. 幻觉溯源与效果优化

全链路循环防护机制

采用熔断器模式，避免下游系统故障时，Agent 持续调用导致故障扩散、系统雪崩：• 熔断触发条件：当工具调用的失败率超过预设阈值（如 50%）、连续失败次数超过阈值、响应延迟超过阈值，自动触发熔断；• 熔断状态管理：   1. 关闭状态：正常调用，统计失败率；  2. 打开状态：熔断触发，拒绝所有调用，直接返回降级结果；  3. 半开状态：熔断一段时间后，放行少量探测请求，若调用成功则关闭熔断，否则继续保持打开状态；• 熔断隔离：每个工具、每个下游接口独立统计熔断状态，单工具故障不影响其他工具。

决策规则：继续循环：任务未完成、剩余预算 / 轮次充足、无违规行为，自动流转回感知态 OBSERVE，开启下一轮循环；终止任务：终止申请经过 Harness 校验通过、任务完成交付、或不可恢复异常，流转至终态 TERMINATE，完成任务归档、结果交付、复盘结算。

第四层：容错熔断层（高可用保障）【层级核心定位】容错熔断层是工具调用的高可用保障体系，核心目标是解决工具调用超时、失败、下游系统故障等问题，避免 Agent 任务因工具故障中断，同时保护下游系统不被打爆，实现故障隔离与自动兜底。

• 生产级落地细节：1. Token 预算校验：校验当前任务的剩余 Token 预算，工具调用的 Prompt / 结果 Token 预估消耗超过剩余预算，直接拦截；  2. 调用配额校验：校验工具的日 / 月调用配额、QPS 配额，超配额直接拦截或降级；  3. 成本校验：针对付费第三方 API 工具，校验单次调用成本、剩余成本预算，超预算直接拦截。

窗口阈值预警：实时计算当前上下文的 Token 总量，当达到模型上下文窗口的 70% 时，自动触发历史内容压缩、归档、低相关内容清理；滑动窗口机制：针对长会话、长任务，采用滑动窗口机制，始终保留最新的、最相关的核心内容，自动归档过期的、低相关的历史内容到长期记忆，避免窗口溢出；分级注入机制：针对不同复杂度的推理步骤，动态调整上下文注入的范围：简单步骤仅注入超短期 + 短期记忆，复杂规划步骤额外注入相关的长期记忆与业务知识库，平衡推理效果与 Token 消耗。

异常分级：将异常划分为「可重试异常、可回滚异常、需人工介入异常、不可恢复异常」四个等级；分级处置：可重试异常（网络抖动、临时超时）：按指数退避策略自动重试，重试时优先切换备用模型 / 工具端点；可回滚异常（执行结果错误、违规操作）：自动回滚到上一个健康 Checkpoint，注入错误原因，重新执行；需人工介入异常（高风险操作、合规风险）：自动挂起任务，触发人工审核，审核通过后继续执行；不可恢复异常（权限不足、任务非法）：直接终止任务，记录审计日志，触发告警。

1. 多维度智能调度引擎

• 原生支持文本、图片、音频、视频、代码、结构化数据、工具执行结果等多模态内容的统一存储与索引；• 针对非文本内容，采用多模态嵌入模型生成向量索引，同时保留原始文件的元数据与权限管控，支持跨模态召回；• 针对代码、结构化数据，额外添加语法标签、业务标签，提升召回精准度，避免幻觉。

• 生产级落地细节： 1. MCP 协议原生兼容：全量兼容 Model Context Protocol 协议，一键接入 MCP 生态的所有工具，无需二次开发；  2. OpenAPI/Swagger 自动适配：导入 OpenAPI/Swagger 配置文件，自动生成工具定义、参数校验规则、调用逻辑，开箱即用；  3. 多协议兼容：原生支持 RESTful API、gRPC、SOAP、JDBC/ODBC、SSH、SFTP 等主流协议，适配企业内部各类系统；  4. 统一接口抽象：向上对核心执行引擎暴露完全标准化的调用接口，LLM 仅需关注工具的功能与入参，无需关心底层协议差异。

摒弃单一的向量相似度召回，采用多维度混合召回策略，大幅提升召回精准度，避免漏召、误召导致的幻觉与任务偏离：向量相似度召回：基于嵌入模型，召回与当前轮次任务目标语义强相关的长期记忆、历史执行结果；关键词与业务标签召回：基于预设的业务关键词、任务标签、工具标签，精准召回强相关的业务规则、工具使用经验；时序权重召回：给近期的记忆内容更高的权重，优先召回最近几轮的执行结果、任务进度，避免历史无关内容干扰当前推理；结构化数据精准召回：针对关系型数据库中的结构化业务数据，支持 SQL 级精准查询召回，避免向量召回的模糊性与不准确性；重排与过滤：召回后采用重排模型，对召回结果进行相关性排序，过滤低相关、冗余、过期的内容，仅保留 Top-N 最相关的内容。

3. 预算与配额校验

记忆与上下文管理模块

步骤 4：沙箱执行（Act）- 对应 ACT 状态

2. 全维度指标监控

步骤 2：受限推理（Think）- 对应 THINK 状态

• 生产级落地细节：   1. Token 预算校验：校验当前任务的剩余 Token 预算，预估上下文注入的 Token 消耗，超预算自动触发压缩、过滤，禁止超预算的上下文注入；  2. 存储配额校验：校验租户 / 任务的存储配额，超配额禁止写入新的记忆数据，触发归档 / 清理流程；  3. 调用频次校验：限制单 Agent / 单任务的记忆召回 / 写入频次，避免高频无效操作导致的资源浪费与性能损耗。

第二层：分级记忆存储层（全域存储中枢・核心骨架）【层级核心定位】分级记忆存储层是整个模块的核心骨架，采用四级分级存储架构，彻底解决单一存储架构带来的「召回不精准、上下文膨胀、性能不足、成本过高」的问题，同时实现租户级隔离、高可用持久化、多模态统一存储。

步骤 5：结果验证（Validate）- 对应 VALIDATE 状态

1. 不可篡改全链路审计

• 生产级落地细节：   1. 租户级隔离校验：校验当前 Agent、用户、任务所属的租户，仅允许访问本租户的记忆分区，禁止跨租户读写；  2. 任务级权限校验：仅允许当前任务访问自身的任务级记忆分区，禁止跨任务读写其他任务的记忆数据；  3. 操作级权限校验：区分只读 / 读写 / 删除权限，比如全局规则记忆仅开放只读权限，禁止 Agent 任何修改 / 删除操作；  4. 临时权限管控：支持任务级临时授权，任务结束后权限自动回收，避免权限泄露。

核心动作：仅当管控校验通过后，才会通过 Harness 工具管理模块，执行对应的动作（工具调用、代码执行、内容生成等）。

主从协同：主 Agent 负责任务拆解与总控，子 Agent 负责子任务执行，子 Agent 的所有状态流转、执行结果，必须经过主 Agent 与 Harness 管控平面的双重校验；并行协同：支持无依赖的子任务并行执行，通过状态机管控子任务的依赖关系，所有子任务完成后再聚合结果；依赖编排：支持子任务的 DAG 依赖编排，严格按照依赖关系流转状态，前置任务未完成、校验未通过，后置任务禁止启动。

Harness 增强型 ReAct Loop - 执行引擎的执行血肉基于有限状态机的刚性骨架，对原生 ReAct 循环进行了全链路的 Harness 增强，形成了生产级可落地的 Loop 执行体。它不是 Agent 自主循环，而是由状态机驱动、Harness 全程管控的确定性循环，彻底解决了原生 ReAct 的不可控问题。

Prompt 标准化注入：将召回的上下文、全局规则、任务目标，按照标准化的模板结构注入 Prompt，固定全局规则的位置，避免被 Agent 忽略、篡改；轮次级按需注入：每一轮循环仅注入与当前步骤强相关的上下文，而非全量历史内容，大幅降低每一轮的 Token 消耗，同时提升推理精准度；与成本管控联动：注入前自动预估 Token 消耗，结合剩余预算动态调整注入内容的范围，优先保障核心规则、关键进度的注入，在预算范围内最大化推理效果。

3. 跨会话记忆管理

与核心执行引擎的持久化态 PERSIST 深度绑定，是长任务高可用的核心保障：强制每轮快照：核心执行引擎每完成一轮循环，本模块强制生成全量 Checkpoint 快照，包括当前任务进度、子任务状态、上下文、记忆数据、剩余预算、执行状态，持久化到高可用存储；100% 断点恢复：Agent 任务因崩溃、重启、中断后，可直接从最近一次 Checkpoint 快照，100% 还原执行现场，无需从头执行，增量推进任务；多版本快照管理：支持快照的多版本管理，可回滚到任意历史执行节点，重新执行，满足调试、审计、故障复盘需求；快照归档与清理：任务完成后，快照自动归档至长期记忆，设置生命周期，过期自动清理，避免存储资源浪费。

核心动作：通过 Harness 模型网关的统一入口，调用 LLM 进行推理，基于感知到的上下文与管控规则，生成下一步动作建议（工具调用、内容生成）或任务终止申请，同时输出清晰的推理链。

1. Checkpoint 快照与断点续跑机制

步骤 3：刚性管控校验（Harness Intercept）- 对应 HARNESS_VERIFY 状态（核心不可绕过环节）

核心解决全量上下文拼接导致的 Token 浪费、上下文腐烂问题，在不丢失核心信息的前提下，最大化压缩上下文长度，提升有效信息占比：多层级压缩策略：无损压缩：去重、格式标准化、冗余内容删除，比如重复的工具定义、重复的系统规则、无效的空内容；有损压缩：针对长文本、长工具返回结果，采用摘要模型生成核心信息摘要，保留关键逻辑与结果，去除无关细节；结构化压缩：将非结构化的对话内容、执行结果，转化为结构化的进度表、状态机、关键节点列表，大幅降低 Token 占用；动态过滤机制：基于当前轮次的任务目标，自动过滤与当前步骤无关的历史内容，仅保留与当前执行动作强相关的信息；有效信息占比管控：实时监控上下文的有效信息占比，强制要求有效信息占比≥70%，低于阈值自动触发二次压缩与过滤，杜绝上下文腐烂。

• 生产级落地细节：   1. 高危操作拦截：内置高危指令黑名单，拦截 Shell 删除系统文件、格式化磁盘、数据库删库、越权提权等高危操作；  2. 注入攻击检测：检测工具调用参数中的 SQL 注入、命令注入、Prompt 注入攻击，拦截恶意参数；  3. 敏感数据校验：检测参数中是否包含未脱敏的身份证、密钥、商业机密等敏感数据，禁止违规外传；  4. 数据出境合规校验：禁止将境内敏感数据通过工具调用传输到境外系统，满足等保、数据安全法合规要求。

核心动作：严格按照 Harness 管控规则，从记忆管理模块召回与当前任务强相关的上下文、历史执行结果、工具返回数据、任务进度状态，同时采集当前任务的剩余预算、剩余轮次、权限范围等管控信息。

Harness 强制落盘内容：Checkpoint 快照：全量保存当前任务的执行状态、进度、上下文、中间结果，支持崩溃后 100% 还原执行现场；记忆更新：将本轮执行的有效信息、经验沉淀到长期记忆，更新任务进度状态；审计日志：将本轮循环的全链路数据（推理内容、校验过程、执行结果、Token 消耗、耗时）写入不可篡改的审计系统，绑定全局 TraceID；预算更新：实时扣减本轮消耗的 Token 预算、执行轮次，同步到 Harness 成本管控模块。

2. 全生命周期管理

分级异常容错与回滚机制

4. 降级兜底策略

• 生产级落地细节：   1. 必填参数校验：校验工具定义的必填参数是否完整，缺失直接打回，要求 LLM 补充；  2. 参数格式校验：校验参数类型、格式、长度是否符合工具定义，格式错误直接打回；  3. 参数范围校验：校验参数是否在预设的合法范围内，超出范围直接拦截；  4. 防重复调用校验：检测是否为相同参数的重复无效调用，避免资源浪费，直接返回缓存的有效结果。

当工具调用失败、熔断、超配额时，自动执行降级兜底策略，保障 Agent 任务的连续性：• 备用工具降级：自动切换到功能相同的备用工具 / 备用接口，比如主搜索引擎故障，自动切换到备用搜索引擎；• 功能降级：关闭非核心功能，返回简化版结果，比如高精度 OCR 故障，自动切换到轻量 OCR；• 缓存降级：返回最近一次的有效缓存结果，适用于非实时性数据查询场景；• 友好失败返回：无法降级时，返回结构化的错误信息，明确告知核心执行引擎失败原因，辅助 LLM 重新规划动作，避免任务直接终止。

1. 多类型分级沙箱体系

第一层：前置管控层（不可绕过的唯一闸口）【层级核心定位】前置管控层是记忆读写、上下文注入的唯一准入闸口，与 Harness 管控平面的权限、安全、预算模块深度联动，所有记忆操作必须经过本层全量校验，校验不通过一律拦截 / 过滤，绝对不允许进入存储 / 召回环节，是 Harness「管控优先」原则的刚性落地。

3. 企业级隔离与高可用设计

流式执行与进度上报能力

流式进度上报：每一轮循环完成后，实时向用户 / 业务系统上报任务进度、当前执行步骤、剩余预算、预计完成时间；增量内容输出：支持生成内容的流式增量输出，无需等待任务全部完成即可看到中间结果；可中断可干预：执行过程中，支持用户随时暂停、终止、修改任务参数，Harness 管控平面实时生效新的规则与要求。

3. 熔断保护机制

实时采集模块全维度运行指标，同步到 Harness 全局监控大盘，核心指标包括：效果指标：上下文有效信息占比、召回准确率、幻觉率、任务完成率、推理精准度；性能指标：召回平均耗时、P95/P99 耗时、写入耗时、缓存命中率、向量查询 QPS；资源指标：存储使用率、记忆膨胀率、GC 清理频率、Token 利用率、配额使用率；安全指标：越权操作拦截次数、敏感数据脱敏次数、违规内容拦截次数、异常操作告警数。

1. 读写权限校验

• 生产级落地细节： 1. 全类型工具纳管：覆盖四大类核心工具，企业级场景开箱即用：  • 基础工具：文件 IO、Shell、代码解释器、搜索引擎、浏览器等通用工具；  • 企业级工具：数据库、内部 API、ERP、CRM、OA、大数据平台等内部系统工具；  • 第三方工具：通用 SaaS API、行业垂直工具、地图、支付等第三方服务；  • 动态工具：Agent 通过代码解释器自主生成的临时工具，支持临时注册、生命周期管控；  2. 标准化注册流程：支持可视化注册、代码注册、配置文件注册、OpenAPI/MCP 协议自动导入，无需二次开发；  3. 版本化管理：支持工具的多版本管理、灰度发布、无缝回滚，避免版本升级导致的 Agent 任务失败；  4. 动态上下线：支持工具的实时上下线，下线后所有 Agent 无法调用，故障工具可快速摘除，避免影响整体业务。

仅对可重试的异常执行重试，避免盲目重试导致下游系统压力过大：• 可重试异常判断：仅对网络抖动、连接超时、下游系统 5xx 错误、临时限流等可重试异常执行重试，对参数错误、权限不足、内容违规等不可重试异常，直接返回失败；• 指数退避重试：采用指数退避算法，每次重试的等待时间递增（1s→2s→4s→8s），避免重试风暴；• 重试实例切换：重试时优先切换到备用接口 / 备用节点，避免在同一个故障节点上重复重试，提升重试成功率；• 最大重试次数限制：配置最大重试次数（典型 3 次），超过次数后停止重试，触发降级兜底。

Agent 执行平面（中层）核心执行引擎主体）

步骤 6：状态持久化（Persist）- 对应 PERSIST 状态

Harness 管控点：系统 Prompt 全程锁死，禁止 Agent 修改、忽略、覆盖，从根源上杜绝 Prompt 注入攻击；严格限制推理的 Token 消耗，禁止超出单轮 Token 预算；强制要求模型输出结构化的推理链、动作参数、终止理由，为后续校验提供依据；推理请求必须经过模型网关的智能路由、成本管控，禁止直连模型 API。

核心状态流转规则（不可突破）线性流转原则：正常流程必须严格遵循「INIT→OBSERVE→THINK→HARNESS_VERIFY→ACT→VALIDATE→PERSIST」的线性流转，禁止跳步；唯一闸口原则：所有动作执行、任务终止，必须经过HARNESS_VERIFY 管控校验态，这是唯一放行闸口，无任何旁路；打回重跑原则：校验不通过的请求，一律打回推理态 THINK，注入明确的错误原因与优化要求，禁止直接执行；异常兜底原则：任何环节的异常，必须统一进入 EXCEPTION 异常态，按预设规则分级处置，禁止静默失败、禁止无规则跳转。

• 核心职责：统一纳管所有类型的工具，实现工具的全生命周期管理。

全量操作日志落盘：记录每一次记忆操作的全链路数据，包括：TraceID、任务 ID、Agent 实例 ID、租户 ID、用户 ID、操作时间、操作类型、操作内容、权限校验结果、执行状态、耗时，写入不可篡改的分布式存储，永久归档；全链路追溯能力：支持通过 TraceID、任务 ID、用户 ID、时间范围、操作类型等多维度，快速检索审计日志，完整还原记忆操作的全过程，实现故障可排查、责任可认定；合规审计报表：自动生成日 / 月 / 季合规审计报表，包括敏感数据脱敏情况、越权操作拦截次数、数据访问合规率、记忆生命周期管理情况，满足等保、行业监管要求。

2. 安全合规与脱敏管控

• 核心职责：管控记忆操作带来的 Token 消耗、存储成本，避免预算超支、资源浪费。

• 多维度告警规则：支持工具调用失败率超标、延迟突增、熔断触发、高危操作拦截、越权调用尝试、配额用尽、预算超支等多维度告警，支持自定义告警阈值；• 多渠道通知：支持邮件、企业微信、钉钉、短信、webhook 等多渠道告警推送，按告警等级推送给对应的负责人；• 告警联动处置：支持告警触发后自动执行熔断、降级、摘机等处置动作，实现故障的自动化闭环处理，减少人工介入成本。

有限状态机（FSM）执行引擎的刚性骨架有限状态机是生产级执行引擎的核心，它彻底终结了原生 Agent「无边界自由循环」的不可控问题，将 Agent 的全生命周期固化为预定义、可校验、可管控的状态流转规则，所有状态跳转必须经过 Harness 校验，是 Harness「可控优先」原则的刚性落地。

有限状态机（FSM）执行引擎的刚性骨架

用户级记忆画像：基于用户的历史会话、任务执行记录，自动沉淀用户偏好、业务习惯、专业领域、交互规则，跨会话复用，提升用户体验；任务级跨会话恢复：支持中断的任务跨会话恢复，从归档的 Checkpoint 快照还原任务现场，继续执行；业务知识沉淀：自动从完成的任务中，提取可复用的业务经验、工具使用技巧、问题解决方案，沉淀到企业级知识库，供全平台 Agent 复用，形成学习闭环。

生产级核心特性（Demo 与生产级的核心分水岭）

• 全量审计日志落盘：记录每一次工具调用的全链路数据，包括：TraceID、任务 ID、Agent 实例 ID、租户 ID、用户 ID、调用时间、工具名称、入参、出参、执行耗时、状态、错误信息、权限校验结果，写入不可篡改的分布式存储，永久归档；• 全链路追溯：支持通过 TraceID、任务 ID、工具名称、时间范围、租户 ID 等多维度，快速检索审计日志，完整还原工具调用的全过程，实现故障可排查、责任可认定；• 合规审计报表：自动生成日 / 月 / 季合规审计报表，包括高危操作拦截次数、越权调用尝试、敏感数据传输情况、工具调用合规率，满足等保、行业监管要求。

第四层：生命周期与持久化层（长任务支撑核心）【层级核心定位】本层是 Agent 长周期、跨会话、多步骤复杂任务的核心支撑，核心目标是实现 Agent 执行状态的全量持久化、断点续跑、生命周期全链路管理，彻底解决长任务崩溃后无法恢复、记忆无限膨胀、历史数据混乱的问题。

2. 执行环境全管控

• 生产级落地细节：   1. 主体权限校验：校验当前 Agent 实例、租户、用户、任务，是否在该工具的授权白名单内，非授权主体直接拦截；  2. 操作级权限校验：校验申请的操作类型是否在授权范围内，比如文件工具仅授权只读权限，禁止写入 / 删除操作；DB 工具仅授权 SELECT 查询权限，禁止 UPDATE/DELETE 操作；  3. 范围级权限校验：校验操作的资源范围是否在授权边界内，比如文件工具仅允许访问指定目录，禁止访问系统目录 / 其他租户目录；API 工具仅允许调用指定接口，禁止越权访问其他接口；  4. 临时权限管控：支持任务级临时授权，任务结束后权限自动回收，避免权限泄露。

有限状态机是生产级执行引擎的核心，它彻底终结了原生 Agent「无边界自由循环」的不可控问题，将 Agent 的全生命周期固化为预定义、可校验、可管控的状态流转规则，所有状态跳转必须经过 Harness 校验，是 Harness「可控优先」原则的刚性落地。

第三层：上下文智能调度层（执行引擎联动核心・执行血肉）【层级核心定位】上下文智能调度层是本模块与核心执行引擎联动的核心，是解决 LLM「上下文腐烂、窗口溢出、幻觉频发」三大痛点的关键。核心目标是在有限的上下文窗口内，最大化有效信息占比，为 LLM 每一轮推理提供最精准、最必要的上下文，同时严格控制 Token 消耗。

• 核心职责：校验工具调用参数的合法性、完整性，避免参数错误导致的调用失败、下游系统异常。

标准状态定义（生产级全场景覆盖）我们将 Agent 全生命周期划分为 9 个预定义状态，覆盖正常执行、异常处理、终止归档全场景，每个状态的职责、准入条件、流转规则完全固化，不可修改。【有限状态机FSM】执行骨架（不可修改、不可绕过、不可突破）INIT → OBSERVE → THINK → HARNESS_VERIFY → ACT → VALIDATE→ PERSIST → TERMINATE/LOOP异常态EXCEPTION全链路拦截兜底

4. 精准注入与规则锁定

2. 安全合规校验

Harness 管控点：仅注入授权范围内的信息，禁止越权访问其他任务、其他租户的记忆数据；自动对上下文进行压缩、去重、过滤，避免上下文腐烂，控制 Prompt Token 消耗；强制注入当前任务的剩余预算、剩余轮次、规则要求，禁止 Agent 忽略管控约束

• 生产级落地细节：1. 标准化元数据定义：每个工具包含唯一 ID、名称、功能描述、入参 / 出参定义、权限要求、调用配额、超时时间、风险等级、合规要求等标准化元数据；  2. LLM 友好的描述规范：遵循 Function Call 最佳实践，优化工具描述、参数描述，大幅提升 LLM 工具调用的准确率，减少幻觉与参数错误；  3. 元数据权限管控：不同权限的 Agent，仅能看到授权范围内的工具元数据，非授权工具完全不可见，避免越权调用尝试；  4. 元数据动态更新：工具版本、权限、配置变更后，元数据实时同步，无需重启 Agent 实例。

• 核心职责：管控工具调用带来的 Token 消耗、API 调用成本，避免预算超支、下游系统打爆。

工具管理模块

Harness 管控点：所有工具调用必须在 Harness 工具管理模块的沙箱中执行，实现路径隔离、权限隔离、资源隔离；工具调用的参数、范围必须经过二次校验，禁止执行超出校验范围的操作；内置工具调用的超时控制、熔断降级、重试机制，避免下游系统故障导致任务失败；全量记录工具调用的入参、出参、耗时、结果，写入审计日志。

2. 上下文智能压缩与过滤

Harness 核心校验项：权限校验：校验动作是否在 Agent 的授权范围内，禁止越权调用工具、访问数据；合规校验：校验动作是否符合安全合规规则，拦截高危操作、违规内容；预算校验：校验剩余 Token 预算、剩余执行轮次，超预算直接拦截；规则校验：校验动作是否符合任务规则、交付规范，禁止偏离任务目标；终止申请校验（Ralph Loop 核心）：拦截所有任务终止申请，基于原始任务目标、交付标准，校验交付物的完整性、正确性，不达标直接驳回终止申请，强制 Agent 继续执行。

• 核心职责：为 LLM 推理、前置校验、权限管控提供精准的元数据支撑，同时优化 LLM 工具调用的准确率。

• 结果标准化处理：对工具返回的结果进行格式化、去重、过滤、脱敏处理，去除冗余内容、敏感信息，仅保留与任务强相关的核心信息，减少 Token 消耗，避免上下文腐烂；• 智能缓存机制：对相同参数、相同权限的只读工具调用结果，进行缓存，设置合理的过期时间，避免重复调用带来的资源浪费、成本消耗，同时提升 Agent 执行效率；• 异常结果格式化：对工具调用的异常、错误信息，进行结构化封装，明确错误类型、错误原因、修复建议，辅助 LLM 快速修正错误，重新规划动作。

4. 参数合法性校验

针对 Agent 高频使用的代码解释器，提供生产级专属沙箱能力：• 预配置安全的 Python/Node.js 等运行环境，禁用高危系统库、高危函数；• 支持自定义依赖包白名单，禁止安装未授权的第三方依赖；• 代码执行全链路日志记录，支持审计与回溯；• 执行超时自动终止，避免死循环占用资源。

• 租户级隔离：支持软隔离（逻辑分区）与硬隔离（物理存储实例）两种模式，金融、政务等强合规场景支持物理机独占、存储实例独占，彻底杜绝数据交叉访问；• 加密存储：所有记忆数据采用传输加密 + 存储加密双加密模式，敏感数据采用国密算法加密，满足等保三级合规要求；• 高可用持久化：所有持久化存储采用多副本、异地容灾架构，支持数据备份与恢复，杜绝数据丢失；• 读写分离：针对高频读取的长期记忆，采用读写分离架构，提升召回性能，避免写入操作影响读取效率。

核心动作：由 Harness 管控平面，基于任务状态、校验结果、剩余预算，最终决策是继续循环还是终止任务，Agent/LLM 无最终决策权。

硬上限管控：预设最大执行轮次、单任务总 Token 预算、单轮最大 Token 消耗、总执行超时时间，不可突破；死循环检测：自动识别重复执行相同动作、无实质进展的循环，触发告警、打回优化、直至熔断终止；上下文腐烂检测：实时监控上下文的有效信息占比，当冗余信息占比超过阈值，自动触发上下文压缩、清理，避免推理质量下降；预算实时管控：每轮循环实时扣减 Token 预算，达到阈值自动触发限流、降级、熔断，杜绝预算超支。

Harness 增强型 ReAct Loop - 执行引擎的执行血肉

3. 结果标准化处理与缓存

核心动作：强制完成本轮循环的全量状态持久化，为断点续跑、审计溯源、故障恢复提供支撑。

【第一层：前置管控层】与Harness管控平面联动（不可绕过的闸口）前置管控层是工具调用的唯一准入闸口，与 Harness 管控平面的权限、安全、预算模块深度联动，所有工具调用申请必须经过本层全量校验，校验不通过一律拦截，绝对不允许进入执行环节，是 Harness「管控优先」原则的刚性落地。

1. 全链路超时控制

2. 多协议原生适配

第五层：观测审计层（全链路可追溯闭环）【层级核心定位】观测审计层是本模块的闭环优化载体，与 Harness 可观测治理模块深度联动，实现记忆全生命周期操作的 100% 可观测、可审计、可追溯、可优化，满足企业内控、合规审计、故障排查、效果优化需求。

3. 上下文窗口动态管控

第二层：注册与适配层（工具标准化中枢）【层级核心定位】注册与适配层是工具的标准化管理中枢，负责所有工具的注册、元数据管理、多协议适配、动态上下线，实现「一次注册、全平台复用、多 Agent 安全共享」，彻底解决工具碎片化、适配成本高的问题。

步骤 7：循环 / 终止决策（Loop/Terminate）- 对应 TERMINATE/OBSERVE 状态

• 核心职责：校验记忆操作的合法性，拦截无效、非法、重复的读写请求。

3. 代码解释器专属沙箱

Checkpoint 断点续传机制

多 Agent 协同调度能力

实时采集工具调用的全维度指标，同步到 Harness 全局监控大盘，核心指标包括：• 可用性指标：调用成功率、失败率、熔断次数、降级次数、重试次数；• 性能指标：平均响应耗时、P95/P99 耗时、连接耗时、执行耗时；• 流量指标：QPS、日 / 月调用量、并发量、配额使用率；• 成本指标：工具调用总成本、单次调用平均成本、预算消耗进度；• 安全指标：高危操作拦截次数、越权调用拦截次数、注入攻击拦截次数。

• 核心职责：拦截高危操作、违规指令、注入攻击，杜绝安全风险与合规问题。

2. 智能重试机制

4. 告警与通知体系

第五层：观测审计层（全链路可追溯闭环）【层级核心定位】观测审计层是工具管理模块的闭环优化载体，与 Harness 可观测治理模块深度联动，实现工具调用全链路的 100% 可观测、可审计、可追溯、可优化，满足企业内控、合规审计、故障排查需求。

• 核心职责：严格执行最小权限原则，校验 Agent 是否拥有该工具的调用权限，以及操作范围的权限。

步骤 1：受控感知（Observe）- 对应 OBSERVE 状态

核心动作：对执行结果进行多维度自动校验，确保结果符合要求，将错误闭环在系统内部，不流出到用户 / 生产环境。

1. 混合式智能召回引擎

核心动作：Harness 管控平面全量拦截 LLM 生成的动作建议 / 终止申请，执行多维度刚性校验，这是整个 Loop 的唯一放行闸口，校验不通过一律打回，禁止执行。

• 核心职责：抹平不同工具的协议差异，向上提供标准化的调用接口，对核心执行引擎与 LLM 完全透明。

幻觉溯源能力：基于记忆召回日志、上下文注入日志、推理链日志，可追溯幻觉产生的原因，比如召回错误、上下文缺失、信息过期等，针对性优化召回策略与记忆内容；效果闭环优化：基于任务完成情况、效果校验结果，自动优化召回策略、压缩规则、生命周期配置，比如频繁漏召的内容提升权重，频繁误召的内容调整标签，持续提升上下文管理效果；告警与通知体系：支持召回准确率下降、幻觉率上升、存储超配额、越权操作、敏感数据泄露风险等多维度告警，支持自定义阈值，多渠道推送告警通知，同时支持告警触发自动处置动作。

Harness 校验项：正确性校验：校验结果是否符合动作预期，是否存在幻觉、逻辑错误、代码语法错误；格式校验：校验结果是否符合预设的结构化格式、交付规范；合规校验：校验结果是否存在敏感内容、违规信息、数据泄露风险；目标对齐校验：校验结果是否推动任务向最终目标推进，是否存在无效执行、循环执行。处置规则：校验通过进入下一步；校验不通过，直接打回推理态，注入明确的错误原因与优化要求，强制重跑；严重违规直接进入异常态。

• 核心职责：严格执行最小权限原则，校验 Agent 对记忆分区的读写权限，杜绝越权访问。

• 核心职责：拦截敏感数据明文存储、违规内容写入、越权信息注入，杜绝数据泄露与合规风险。

4. 读写准入校验

• 资源限制：为每个沙箱实例配置独立的 CPU、内存、磁盘、网络带宽上限，避免 Agent 执行耗资源操作导致宿主系统崩溃；• 网络管控：基于白名单管控沙箱的网络访问权限，仅允许访问授权的 IP / 域名，禁止公网访问、内网横向访问；• 文件系统隔离：每个租户、每个任务分配独立的虚拟文件系统，禁止跨租户、跨任务访问文件，任务结束后自动清理临时文件；• 生命周期管控：沙箱实例与 Agent 任务生命周期绑定，任务启动创建沙箱，任务结束自动销毁沙箱，无残留、无泄露。

• 生产级落地细节：   1. 写入前强制脱敏：所有待写入记忆的内容，必须先经过 PII 敏感信息识别与脱敏，包括身份证、手机号、API 密钥、商业机密、个人隐私等，支持不可逆脱敏与格式保留加密两种模式，绝对禁止敏感数据明文存入存储系统；  2. 违规内容过滤：拦截涉政、涉黄、涉暴、违法违规内容的写入，避免违规内容被召回注入 Prompt，导致合规风险；  3. 数据出境合规校验：禁止境内敏感数据写入境外部署的存储系统，满足数据安全法、等保 2.0 合规要求；  4. 全局规则锁定：全局规则记忆采用只读存储，仅管理员可通过管控平面修改，Agent 任何修改、覆盖、忽略规则的操作一律拦截。

基于工具的风险等级，采用分级沙箱隔离策略，平衡安全性与执行效率：高风险：Shell、代码解释器、系统操作工具，采用轻量级虚拟机 / 容器沙箱，完全隔离宿主环境，独立 CPU、内存、文件系统、网络权限，禁止访问宿主资源；中风险：文件 IO、数据库、内部 API 工具，采用命名空间 / 权限沙箱，路径隔离、操作范围隔离、账号权限隔离，仅能访问授权资源；低风险：只读搜索引擎、公开数据 API 工具，采用接口代理沙箱，网络隔离、参数校验、结果过滤，仅允许访问白名单内的地址

• 生产级落地细节：   1. 操作合法性校验：校验记忆操作的类型、范围、格式是否符合预设规则，非法操作直接拦截；  2. 重复写入过滤：检测是否为相同内容的重复写入，避免冗余数据占用存储、污染记忆库；  3. 上下文注入准入：仅允许与当前轮次任务目标强相关的内容注入 Prompt，禁止无关内容的强制注入。

3. 工具元数据管理

针对不同层级的记忆，设置精细化的生命周期管理规则，避免记忆无限膨胀、数据混乱：生命周期分级配置：超短期记忆：轮次结束后自动清理，无残留；短期记忆：与会话生命周期绑定，会话结束后，可配置自动归档至长期记忆、临时保留 7 天、立即清理三种模式；长期记忆：支持永久存储、按时间过期、按访问频率过期三种模式，比如 180 天未访问的记忆自动归档到冷存储；全局规则记忆：永久生效，仅管理员可修改 / 删除；自动 GC 清理机制：内置垃圾回收机制，自动清理过期、无效、重复、低价值的记忆数据，释放存储资源，同时记录 GC 日志，写入审计系统；冷热数据分离：高频访问的热数据存放在高性能缓存 / 热存储，低频访问的冷数据自动归档到低成本冷存储，平衡性能与存储成本。

采用三级超时控制策略，覆盖工具调用全生命周期，避免请求无限等待：• 连接超时：与下游系统建立连接的最大等待时间，典型配置 1-3s，超时自动重试；• 执行超时：工具执行的最大等待时间，根据工具类型配置（如 API 调用 5s、代码执行 30s），超时自动终止执行；• 总请求超时：从发起调用到收到结果的最大总时长，超过阈值直接终止，返回异常信息给核心执行引擎。

第三层：沙箱执行层（安全执行载体）【层级核心定位】沙箱执行层是工具调用的安全执行载体，核心目标是实现工具执行与宿主环境、租户环境、业务系统的完全隔离，避免 Agent 越权操作、系统破坏、数据泄露，是企业级 Agent 落地的核心安全屏障。