ReAct 工程化问题思维导图模板_ProcessOn思维导图、流程图

工具失败不是"抛了个异常"这么简单

抛了异常的失败是显式的，能发现、能处理

麻烦的是"无声失败"：工具调用成功返回了，但返回的是垃圾

案例

问某上市公司的2023年财报数据

前6步顺利找到了行业背景

第7步，搜索返回了一个内容付费网站，整页都是登录提示，"请订阅后查看完整财报"。没有任何异常被抛出，这个登录页被完整地送进了 Observation

模型"看见"了一个说"请登录"的页面，开始推理自己应该怎么"绕过"这个限制，换了各种关键词继续搜

步骤7到14，8步里有6步都是"某公司财报 PDF 下载"、"某公司年度报告 免费"之类的变体。每次搜索结果都差不多，模型陷入了循环

整个任务跑了18步才超时停下，最后的报告是胡说八道

工具失败分三类

超时/网络异常 → 指数退避重试，最多3次

为什么要指数退避（1s, 3s, 9s）而不是固定间隔？

超时通常是服务器压力大导致的，固定间隔重试会在同一时间段内继续打压，

指数退避给服务器时间恢复，重试成功率高很多

空结果 → 不重试，换关键词

为什么空结果不重试？

重试同一个关键词只会得到同样的空结果，纯粹浪费步数。

正确做法是告知模型"没搜到"，让它自己决定换个角度

内容质量检查 → 过滤垃圾，不把垃圾传给模型

为什么要主动过滤，而不是把结果直接传给模型让它自己判断？

因为"登录页面"、"404页面"在语义上和正常内容很相似，

模型不一定能识别出来，会把垃圾当信息使，导致后续推理全部跑偏

重复搜索：比死循环更难发现的问题

就像一个人迷路了，他不会原地不动，他会一直走——但如果没有导航，他可能一直在一个街区里打转，走了很远却没有离目的地更近

加了重复检测之后，我们测试集里平均每次研究任务的有效步骤比例从73%提升到了91%

之前将近1/4的步骤是在原地打转，现在基本上每步都在推进任务

应该在系统上线后，先把每次任务的搜索词日志打出来，肉眼看一下有没有重复的模式。 通常你会发现比预想的多得多

核心代码

第一部分：LoopDetector 类 —— 智能体的 “刹车系统”

核心目的是防止 LLM 在同一个问题上反复横跳

例如：搜了 “苹果财报” 没结果，又改搜 “Apple financial report”，还是没结果，继续搜 “苹果公司 2023 财务”...

基于语义的重复检测

它不做简单的字符串匹配，而是用 Embedding (向量嵌入) 做语义相似度计算：

# 余弦相似度计算 similarities = [     float(np.dot(new_embedding, h["embedding"]) /           (np.linalg.norm(new_embedding) * np.linalg.norm(h["embedding"]) + 1e-9))     for h in recent ]

为什么用余弦相似度？

因为 “苹果财报” 和 “Apple annual report” 在字面上完全不同，但在向量空间里距离很近

经验阈值 0.88

调参后的平衡值（太低误报，太高漏报）。

基于 “历史反馈” 的提示生成

不仅检测 “重复”，还会结合上次搜索的结果质量给出不同的提示

如果上次是 empty_result

告诉模型 “这个方向彻底没货，换个完全不同的角度”

如果上次是 garbage

告诉模型 “别搜了，这个词搜出来的都是广告 / 登录墙，试试直接访问具体 URL”。

提示词工程的心理学

直接说 “你重复了” 没用，必须告诉模型 “上次因为什么失败了”，才能迫使它跳出局部最优解。

第二部分：react_loop_prod 函数 —— 生产级 ReAct 引擎

这是将所有组件串起来的主循环。它展示了一个健壮的 LLM 应用应该长什么样

标准的 ReAct 流程

Think (推理)：调用 LLM，让它决定下一步做什么（调用工具还是直接回答）。

Act (行动)：执行工具（这里是 execute_tool_safe）。

Observe (观察)：把结果塞回消息列表，进入下一轮。

关键集成点：LoopDetector 的接入

代码在 “生成工具调用之后” 与 “真正执行工具之前” 插入了检测

if tool_name == "search":     # ... 计算 embedding ...     loop_check = loop_detector.check(query_text, query_emb)          if loop_check["is_loop"]:         # 【核心操作】不执行工具，直接把“警告”当作工具返回值扔回去         messages.append(...)          messages.append({             "role": "tool",             "content": loop_check["hint"]         })         continue  # 直接进入下一轮 LLM 思考，不浪费 API 调用

拦截机制

如果发现是循环，根本不调用搜索 API，既省钱又省时间。

软干预

它不直接强制修改 LLM 的行为，而是把 “警告” 作为一条 tool 消息放入上下文，让 LLM 自己 “意识到错误并改正”

结果质量的闭环反馈

结果质量的闭环反馈# 执行完工具后... if tool_name == "search":     # 把这次的失败类型（如 "timeout", "empty_result"）记录下来     loop_detector.mark_result_quality(tool_result.error_type or "ok")

形成了一个完整的闭环：搜索 -> 失败 -> 记录 -> 下次再犯时精准打击。

整体设计亮点总结

不是 “硬编码”，而是 “心理引导”

普通的防循环是 if query in history: break。

通过精心设计的 hint 去说服 LLM “你之前试过了，因为 X 原因没成，你试试 Y”

语义级别的防御

利用 Embedding 跨越了语言和表述的障碍（中 / 英、简称 / 全称都能识别）。

成本意识

在真正发起昂贵的 API 调用前拦截。

历史记录只保留 20 条，防止内存泄漏。

容错与优雅降级

即使陷入循环，也是让 LLM 重新思考，而不是直接报错崩溃。

最后有 _force_conclude 保底，确保步数到了必须输出。

token 预算：要在"溢出前"处理，不是"溢出后"

对 ReAct 的 token 来说，也需要提前分档处理

核心代码

TokenBudget

通过渐进式阈值策略，动态调整信息传递的粒度，避免 Token 瞬间触顶

1. __init__：初始化预算与阈值

def __init__(self, max_tokens: int = 28000):     self.max_tokens = max_tokens  # 总预算（留余量给最终答案）     self.YELLOW_THRESHOLD = 0.65  # 65%：进入精简模式     self.RED_THRESHOLD = 0.85     # 85%：触发历史压缩

余量思维

设 28000 而非模型上限（如 32000），是为了给最终答案生成预留空间

三级预警

通过黄、红阈值实现 “正常→精简→压缩” 的平滑过渡，而非一刀切

2. get_mode：判断当前预算模式

def get_mode(self, current_tokens: int) -> str:     ratio = current_tokens / self.max_tokens     if ratio < self.YELLOW_THRESHOLD:         return "normal"    # 预算充足：完整传递信息     elif ratio < self.RED_THRESHOLD:         return "compact"   # 预算紧张：截断单次搜索结果     else:         return "compress"  # 预算告急：压缩历史对话

3. truncate_observation：动态截断搜索结果

def truncate_observation(self, observation: str, mode: str) -> str:     if mode == "normal":         return observation[:3000]   # 正常：保留 3000 字符     elif mode == "compact":         return observation[:1500]   # 精简：砍半，保留关键段落     else:         return observation[:800]    # 压缩：极简，只留核心

梯度截断

模式越紧张，单次搜索结果保留越短，优先牺牲 “单次信息的丰富度”，保住 “历史推理的连贯性”。

精简模式下，搜索结果被截短，模型每步能看到的信息量减少，但推理链的长度得到了控制。这是一个权衡，信息完整性和上下文容量之间的权衡。

在 token 紧张的情况下，宁可每步少看一点，也要保证模型能够完整地看到早期的关键发现。

摘要字典详解

直接截断字符串（而非 Token 级），实现简单且高效（假设 1 Token ≈ 4 字符）

compress_history

这是一个异步函数，当 Token 进入 “红色警戒” 时触发，通过保留推理轨迹、压缩原始数据的策略，在减少 Token 的同时保住核心逻辑

1. 核心逻辑：保留 “思考”，压缩 “资料”

""" 为什么要保留 think 而压缩 observation？模型的推理过程（think）反映了它怎么一步步缩小信息缺口，这个"思考轨迹"比具体的原始搜索结果更重要—— 它决定了模型接下来能做什么决策 """

“思考” > “资料”

LLM 之前的推理（assistant 消息）决定了后续决策方向，必须完整保留

而原始搜索结果（tool 消息）只是 “素材”，可以压缩成摘要。

2. 步骤 1：判断是否需要压缩

tool_messages = [m for m in messages if m["role"] == "tool"] if len(tool_messages) < 3:     return messages  # 太少不值得压缩

历史搜索结果少于 3 条时，压缩收益不明显，直接跳过。

3. 步骤 2：用 LLM 生成 “研究摘要”

all_observations = "\n\n---\n\n".join([m["content"] for m in tool_messages]) summary_prompt = f"""以下是一次 Deep Research 任务中的所有搜索结果原文。 请提炼成一段结构化摘要，格式： ## 已确认的事实 [列出已找到的关键信息，每条带来源] ## 尚未解决的子问题 [列出还没找到答案的信息缺口] 原始搜索结果： {all_observations[:8000]}  # 再次截断，防止提示词过长 """ summary = await llm.chat_async([{"role": "user", "content": summary_prompt}])

结构化蒸馏

强制 LLM 按 “已确认事实 + 未解决问题” 的格式输出，确保摘要可被后续流程直接利用

双重保险

对 all_observations 再次截断（[:8000]），防止 “压缩提示词本身太长” 的尴尬

4. 步骤 3：重建对话历史

think_messages = [m for m in messages if m["role"] == "assistant"] new_messages = [     messages[0],  # 保留系统提示（核心指令）     messages[1],  # 保留用户原始问题（根目标）     *think_messages,  # 完整保留模型的所有思考轨迹     {"role": "tool", "tool_call_id": "compressed", "content": f"[已压缩历史搜索结果]\n{summary.content}"} ]

重建策略（优先级从高到低）

必留

系统提示（messages[0]）

用户问题（messages[1]）

保证任务目标不丢失

全留

所有 assistant 消息

保住推理链条

替换

所有 tool 消息合并为一条摘要

用最小空间保留核心信息

实际场景

在 ReAct 循环里加 token 计数，不要等到溢出才处理

建议在每步执行前打印出当前 token 使用率

观察你的任务通常在哪个阶段开始"吃紧"，再根据实际情况调整三个阈值

实际效果是：同样的 Agent、同样的问题，引入 token 预算管理后，需要12步以上才能完成的复杂任务，成功率从61%提升到了78%。提升的原因很简单，模型在整个执行过程中都能保持对早期关键信息的注意力，而不是在10步之后开始"忘事"

结构化日志

Agent 出了问题，要知道在哪步出的

把所有关键信息打成结构化的格式

本质是一个结构化的 “黑匣子” 记录仪

调试追踪

哪一步失败了？为什么失败？（网络超时？结果为空？）

性能分析

哪一步耗时最长？Token 消耗峰值是多少？

健康度评估

Agent 是不是陷入了无效循环？工具调用成功率如何？

核心代码

__init__：初始化日志容器

def __init__(self, task_id: str):     self.task_id = task_id        # 任务唯一标识（如 UUID）     self.steps = []                # 存储每一步的详细日志     self.start_time = datetime.now() # 记录任务开始时间（用于计算总耗时）

task_id：将日志与具体任务绑定，方便后续回溯

start_time：自动记录启动时间，无需手动传入。

log_step：记录单步执行细节（核心方法）

def log_step(self, step: int, tool_name: str, tool_args: dict,              result_status: str, token_count: int, duration_ms: int):

详细参数

日志内容结构化存储

entry = {     "task_id": self.task_id,     "step": step,     "timestamp": datetime.now().isoformat(), # 精确到毫秒的时间戳     "tool": tool_name,     "args": tool_args,     "result_status": result_status,     "token_count": token_count,     "duration_ms": duration_ms } self.steps.append(entry)

timestamp：自动记录当前时间，方便按时间线复盘。

全量存储：把 “输入（tool_args）、输出状态（result_status）、成本（token_count）、效率（duration_ms）” 全部记录，无死角

实时调试打印

print(f"[{step:02d}] {tool_name}({tool_args.get('query', '')[:40]}) → {result_status} | {token_count} tokens | {duration_ms}ms")

在控制台实时打印极简日志，方便开发调试时一眼看到进度。

step:02d：补零对齐（如 01、02），更美观

[:40]：关键词太长时截断，避免刷屏。

为什么要记录 duration_ms

当某步花了 8 秒但结果是空的，通常意味着超时重试 —— 帮你判断是网络问题还是关键词问题”

场景 1：duration_ms=8000（8 秒）+ result_status=empty_result → 大概率是网络超时（工具内部重试了多次后放弃）

场景 2：duration_ms=500（0.5 秒）+ result_status=empty_result → 大概率是关键词问题（搜索太快但没结果）

价值：通过 “耗时 + 状态” 的组合，快速定位故障根因

summary：生成任务健康度摘要

核心指标计算

total_steps = len(self.steps)                         # 总步数 loop_steps = sum(1 for s in self.steps if s["result_status"] == "loop_detected") # 循环步数 failed_steps = sum(1 for s in self.steps if s["result_status"] not in ("ok", "loop_detected")) # 失败步数

摘要字典详解

return {     "task_id": self.task_id,     "total_steps": total_steps,                          # 总执行步数     "effective_steps": total_steps - loop_steps,         # 有效步数（排除循环）     "loop_rate": loop_steps / total_steps if total_steps else 0, # 循环率（越高越容易卡死）     "tool_fail_rate": failed_steps / total_steps if total_steps else 0, # 工具失败率（越高越不稳定）     "peak_tokens": max(s["token_count"] for s in self.steps) if self.steps else 0, # Token 峰值（用于评估成本上限）     "total_duration_s": (datetime.now() - self.start_time).total_seconds() # 总耗时（秒） }

参数

多维度分析：summary 不仅看 “成功 / 失败”，还看 “效率、成本、健康度”。

总结

ReAct 工程化遇到哪些问题怎么处理

工具失败问题

超时用指数退避重试，因为频繁重试会加剧服务器压力

空结果不重试，直接告知模型换关键词，重试同一个词没意义

工具成功返回了，但内容是垃圾，比如付费内容墙、广告页。这类必须主动检测过滤，不能让模型把垃圾当成信息。

重复搜索检测

基于 embedding 相似度的重复搜索检测，阈值设在0.88。不只是说'你重复了'，还根据上次失败的原因给出针对性提示，上次是空结果，就让模型从完全不同的角度切入；上次是付费墙，就建议直接访问可信来源的 URL。加了这个之后，有效步骤比例从73%提升到了91%。

token 管理

上下文膨胀这块，我们不是等到溢出了才处理，而是在65%、85%两个阈值提前介入，65%开始截断搜索结果传入长度，85%触发历史压缩。同样的任务，加了这个之后，复杂任务的成功率从61%提升到了78%。