首页  思维导图  详情



 



IterResearch 和上下文管理

2026-05-08 15:10:32   0  举报





AI智能生成

IterResearch 和上下文管理

IterResearch

Agent

Agent 上下文

上下文管理

token

模板推荐

作者其他创作

大纲/内容

ReAct 的上下文问题

从线性积累到认知过载

ReAct 的工作方式

每一步的 Thought → Action → Observation 追加到上下文里，形成一个线性的历史记录

模型每次推理都要读这整段历史，从里面提取当前需要的信息，然后决定下一步

这个机制在任务步骤少的时候（5-8步）没有问题，历史不长，模型能处理

当步骤数超过15步时，问题开始集中出现

Context 越来越长，注意力越来越稀薄

Transformer 的注意力机制是全局的，但在超长序列里，对早期 token 的有效注意力会下降

案例

假设模型在第 4步找到的一个关键事实A 公司 2024 年的净利润是 12 亿"

到了第 20 步，可能已经淹没在大量中间步骤的噪声里，模型即使没有"忘记"这个 token，实际上它对这个事实的利用率已经很低了。

模型在后续步骤里重新搜索了已经找到的信息，因为它"感觉"自己还不确定

搜索结果大量重复，但 Context 不断增大

线性历史里有大量"冗余"信息

同一个事实被不同来源重复提及，对话历史里有大量"我接下来要……"这类推理过程文字

这些内容对推理没有额外帮助，但持续占据 Context 空间

上下文满了，只能截断，但截断会丢信息

当 Context 快满时，ReAct 只能把最老的历史截掉

但最老的历史里往往有最初的任务定义、关键的背景信息、早期发现的核心结论

一截断，模型开始在没有全局背景的情况下推理，更容易绕圈子

综上所述

ReAct 不能无限扩展。它是一个线性积累的架构，而真正的深度研究是一个需要非线性、迭代式理解的过程

IterResearch

核心思想

用"演进报告"替换"线性历史"

与其保留每一步的原始对话记录，不如维护一份随研究推进而不断更新的结构化报告。

演进报告（Evolving Report）

每次 Agent 完成一步搜索后，不是把 Observation 追加到历史里，而是把新发现的信息整合更新到演进报告里

已确认的事实（Confirmed Facts）

每一步新发现的、经过来源确认的信息

确认了的事实加进 Confirmed Facts

尚未解决的子问题（Open Questions）

还没找到答案的待研究问题

发现了新问题加进 Open Questions

信息缺口（Information Gaps）

发现了有某个方向的信息但还不完整

发现某个信息缺口加进 Information Gaps

当前研究方向（Current Focus）

下一步要研究的具体问题

上下文的大小不再随步骤数增长，而是始终保持在报告的大小（相对固定）加上当前步骤的工具结果（单步大小）

核心代码

EvolvingReport

结构化的状态管理器

帮助研究智能体记住

已经确认了什么（事实）

还需要解决什么（问题）

下一步该关注什么（焦点）

目前研究到哪一步了（进度）

__init__：初始化记忆容器

def __init__(self):     self.confirmed_facts: list[dict] = []  # 已确认事实（带来源、步骤戳）     self.open_questions: list[str] = []     # 待解决子问题     self.information_gaps: list[str] = []   # 信息缺口（预留字段）     self.current_focus: str = ""             # 当前研究焦点     self.research_steps: int = 0             # 已执行步骤数

confirmed_facts

字典存储，不仅存内容

还存 source（来源）和 step（第几步发现的），方便回溯

information_gaps

目前未在 update 中使用，是预留的扩展字段

update：核心逻辑 —— 整合新发现

for fact in new_findings.get("facts", []):     self.confirmed_facts.append({         "content": fact["content"],         "source": fact["source"],         "step": self.research_steps  # 标记是第几步发现的     })

把新发现的事实 “归档”，并打上时间戳（步骤）和来源标签

追加新发现的子问题

self.open_questions.extend(new_findings.get("new_questions", []))

研究往往会引出新问题，这里把新问题加入 “待办列表”

更新研究焦点 & 计数

if new_findings.get("next_focus"):     self.current_focus = new_findings["next_focus"] self.research_steps += 1

明确下一步该研究什么，并把 “步数”+1

to_prompt_context：把记忆转成 LLM 能读的 Prompt

def to_prompt_context(self) -> str:     # 只保留最近 20 条事实（防止上下文溢出）     facts_str = "\n".join([         f"- {f['content']} [来源: {f['source']}]"         for f in self.confirmed_facts[-20:]     ])     # 只保留前 10 个待解决问题     questions_str = "\n".join([f"- {q}" for q in self.open_questions[:10]])     return f"""## 当前研究状态（第{self.research_steps}步）  ### 已确认的事实  {facts_str}  ### 尚未解决的子问题  {questions_str}  ### 当前研究焦点  {self.current_focus}  """

滑动窗口

confirmed_facts[-20:] 只保留最近 20 条，不是无限追加

open_questions[:10] 只取前 10 个

已解决的会被移除，而不是保留历史。这确保了报告大小始终可控

防止 Prompt 太长超过 LLM 的上下文窗口

结构化输出

用 Markdown 标题和列表排版，方便 LLM 理解

用演进报告驱动推理循环

有了演进报告，整个 IterResearch 的执行循环比 ReAct 稍复杂

异步迭代式深度研究（Iterative Research）主循环

结合了 LLM（大语言模型）的决策能力、工具调用能力和之前定义的 EvolvingReport 记忆管理，模拟人类 “提出问题→调研→整合→再调研” 的研究过程

1. 函数概览

async def iter_research(query: str, tools: ToolSet, max_steps: int = 30) -> str:

定位

整个 Deep Research Agent 的核心调度器

参数

query

用户的原始研究问题（如 “2026 年 AI Agent 在银行的应用前景”）

tools

可用工具集（如搜索、网页抓取、计算器等）

max_steps

最大研究步数（防止无限循环，默认 30 步）

基于研究过程生成的最终报告字符串

2. 初始化：启动研究引擎

report = EvolvingReport() report.current_focus = query   # 初始焦点 = 用户原始问题 report.open_questions = [query] # 初始待办问题 = 用户原始问题

创建一个 “空白记忆本”，并把用户的问题作为初始研究起点

3. 主循环：迭代研究（核心逻辑）

一个 for 循环，最多执行 max_steps 次，模拟 “一步步深入研究” 的过程

步骤 1：构建当前上下文（给 LLM 看的 “记忆快照”）

context = report.to_prompt_context()

把之前的研究成果（已确认事实、待解决问题、当前焦点）格式化为字符串，让 LLM 知道 “目前研究到哪了”

步骤 2：让 LLM 做决策（“下一步该干什么？”）

action = await llm.decide_action(     context=context,     available_tools=tools.list(),     system_prompt=ITER_RESEARCH_SYSTEM_PROMPT )

输入

context

当前研究状态

available_tools

当前可用的工具列表（如 “搜索”“抓取网页”）

system_prompt

给 LLM 的指令（如 “你是一个研究员，请决定下一步用什么工具”）

输出

action

决策结果，如 “调用搜索工具查‘AI Agent 银行案例’” 或 “研究已充分，可以结束”

步骤 3：终止检测 1（“研究够了吗？”）

if action.type == "finish":     break

如果 LLM 判断 “信息已经足够回答原始问题”，主动跳出循环

步骤 4：执行工具调用（“动手查资料”）

observation = await tools.execute(action)

根据 LLM 的决策，实际调用工具（如执行搜索、抓取网页），并获取原始结果（observation）

步骤 5：从原始结果中提取 “有效发现”（关键步骤）

new_findings = await llm.extract_findings(     action=action,     observation=observation,     current_report=context ) report.update(new_findings)

把 “刚才做了什么（action）”“查到了什么 raw 数据（observation）”“之前的研究状态（context）” 喂给 LLM。

让 LLM 做信息蒸馏：从 raw 数据里提取 “新确认的事实”“解决了什么旧问题”“发现了什么新子问题”“下一步焦点该移到哪”

调用 report.update(new_findings)，把蒸馏后的信息更新到 “记忆本” 里

步骤 6：终止检测 2（“所有子问题都解决了吗？”）

if not report.open_questions:     break  # 所有子问题都已解决

如果 “待办问题列表” 空了，说明所有子问题都被解决，研究自然结束。

4. 最终输出：生成完整报告

return await llm.synthesize_report(report)

循环结束后，把完整的 EvolvingReport（包含所有事实、问题追踪）喂给 LLM，让它写一篇结构清晰、有逻辑的最终研究报告

设计亮点

异步化

async/await 让工具调用和 LLM 交互可以并发，提高效率

记忆增强

EvolvingReport 解决了 LLM“上下文窗口有限、容易遗忘” 的问题

智能终止

双重终止条件（LLM 主动 finish + 无待解决问题）

既保证研究充分，又避免浪费资源

报告更新的质量控制：防止"噪声进，噪声出"

演进报告的质量直接决定研究结果的质量。如果把错误的信息加进了 Confirmed Facts，后续的推理会在错误的基础上继续往前走，越走越偏

需要在 extract_findings 这一步做几个质量控制

控制一：事实需要标注置信度和来源。

不是所有工具返回的内容都是同等可信的

搜索摘要的可信度低于网页全文

网页全文的可信度低于有明确数据来源的报告

在加入 Confirmed Facts 时，标注来源类型和置信度（高/中/低），后续综合报告时低置信度的事实要标注不确定性

控制二：矛盾信息的处理机制。

当新发现的事实和已有 Confirmed Facts 矛盾时，不是简单地用新的覆盖旧的，而是两条都保留

时在 Information Gaps 里记录"这两个来源对X事实的描述存在矛盾，需要进一步核实"

让模型在后续步骤里专门核实矛盾，而不是悄悄让一个版本消失

控制三：防止 Confirmed Facts 无限增长。

演进报告的价值在于大小可控

如果 Confirmed Facts 无限追加，很快又变成了另一种形式的线性历史

处理方式是定期做压缩

对同一话题的多条事实做摘要合并，保留信息密度，减少冗余

async def compress_confirmed_facts(facts: list[dict], topic_threshold: int = 5) -> list[dict]:      """当同一话题的事实超过阈值时，触发摘要压缩"""      # 按话题聚类事实      clustered = cluster_by_topic(facts)      compressed = []      for topic, topic_facts in clustered.items():          if len(topic_facts) > topic_threshold:              # 用 LLM 把多条事实压缩成一条              summary = await llm.compress_facts(topic_facts)              compressed.append({                  "content": summary,                  "source": "compressed_from_multiple",                  "confidence": "medium",                  "original_count": len(topic_facts)              })          else:              compressed.extend(topic_facts)      return compressed

例如：小米 2024Q1 营收 598 亿"和"小米 2024Q1 同比增长 18.8%"合并成"小米 2024Q1 营收 598 亿（同比+18.8%）

IterResearch vs ReSum

两种方案解决的是同一个问题（上下文膨胀），但思路完全不同

ReSum（动态摘要模式）

维持 ReAct 的线性历史结构，但在上下文即将溢出时，触发一次 LLM 摘要调用，把最老的一段历史压缩成摘要，腾出空间继续添加新内容

优点

改动最小，在现有 ReAct 框架上加一个摘要触发机制就够了，实现成本低。

缺点

摘要是有损压缩，如果摘要质量不好，关键细节可能被压掉

摘要触发时机是被动的（Context 快满才触发），不是主动管理，在高频摘要的情况下，多次压缩会导致信息越来越失真。

IterResearch（演进报告模式）

从一开始就不采用线性历史，而是用结构化报告作为工作空间，主动管理"哪些信息需要保留、以什么形式保留"

优点

信息的留存是主动选择的，不是被动压缩的

结构化报告让模型每次都能清楚地看到当前研究状态，不需要从大量历史里"找"信息

缺点

需要额外的 extract_findings 调用

每步多一次 LLM 调用；报告结构需要精心设计，否则结构化过度会丢失重要细节

实际工程中的选择

任务步数 < 10，快速验证

ReAct（最简单）

任务步数 10-20，平衡速度和质量

ReSum（轻量改造）

任务步数 > 20，深度研究

IterResearch（最稳定）

对准确率要求极高，接受成本

Research-Synthesis（并行验证）

实际测试里

IterResearch 和 ReAct 对比：在 10 步以内的任务上，ReAct 因为没有额外调用，速度更快，成本更低；在 15 步以上的任务上，IterResearch 的准确率明显高于 ReAct，而且不会出现 ReAct 的"后期绕圈子"现象，总 token 消耗反而更少（因为避免了大量重复搜索）。

额外的 LLM 调用有成本，但它换来了上下文的可控性——与其让模型在 20k 的历史记录里自己找信息，不如用一次额外调用把关键信息结构化出来，后续每步的推理输入都更干净、更可靠。

总结

问题本质

ReAct 的线性历史机制在步数超过 15 步后会出现两个问题

一是 Context 线性增长，很快接近窗口上限

二是模型对早期信息的注意力衰减，导致重复搜索和推理质量下降

这不是靠加大 Context 能解决的，是架构层的问题。

IterResearch 的核心思路v

IterResearch 的解法是用演进报告替换线性历史

每步的工具结果不是追加到历史里，而是结构化地整合进报告

已确认的事实、未解决的子问题、信息缺口

下一步的输入是当前报告快照加上这一步的原始工具结果，大小始终可控，不随步数增长。