长期记忆检索
统一记忆存储向量+记忆内容+元数据(可映射到Qdrant/Weaviate/Milvus)
检索编排
生成回答
上下文构建system prompt/memory/query
记忆策略与预算控制 短期记忆预算/长期记忆预算memory mode/阈值/TTL/衰减/压缩规则
.md文件存储记忆摘要/原始快照/人可读归档
存储层
整体上下文预算history/memory/tool/stem prompt 总体分配
应用层
过滤重排
配置节点
Query Embedding
记忆压缩
模型参与节点
上下文窗口最近对话+短期记忆+检索记忆
记忆注入选择
外部会话系统/对话日志API
短期记忆
LLM记忆系统架构
候选记忆提取
外部系统
写入策略执行
修改个人性格接口
上层应用/Agent/Chat Runtime
LLM推理
用户问题
记忆服务层
记忆评分
冲突检测
外部LLM服务