全栈AI+Cloud云原生技术纯享版-持续更新
2026-04-26 10:33:12 0 举报云+AI全栈的技术都在这里了,包括基础设施INFRA,IAAS+PAAS+MAAS,AI层面的包括RAG、Prompt、Context、Agent的架构,Harness等,想要的在这里都能找到
Agent
Cloud
大模型
解决方案
模板推荐
作者其他创作
大纲/内容
阿里平头哥
...资源池
Prompt框架模型:背景、目标、风格、语气、受众、格式
H20+96GBHBM3
4. 闭环优化结合:Context 反馈效果,Harness 迭代策略Harness 层负责 Agent 的整体策略优化,Context Engineering 负责提供效果反馈数据,二者结合形成完整的自优化闭环:• Context Engineering 收集上下文的检索效果、生成结果、用户反馈,同步到 Harness 层的优化模块;• Harness 层基于反馈数据,优化上下文的检索策略、分块规则、组装逻辑、权限管控规则,再通过 Context Engineering 落地执行;• 二者结合,实现 “执行 - 反馈 - 优化 - 执行” 的完整闭环,让 Agent 系统越用越准,无需人工频繁迭代。
Prompt全流程管控输出
推理框架
核心职责:解决 Agent 的黑盒运行问题,实现全链路可观测、可追溯、可复现、可优化。
数据生成获取
多智能体
原生内置了完整的分层记忆体系,解决了传统 AI “会话结束即遗忘” 的痛点,基于SQLite + FTS5全文检索 + LLM摘要实现,跨会话记忆召回准确率达 95% 以上:会话记忆:当前对话的实时上下文,滚动摘要压缩,控制 Token 消耗;持久记忆:跨会话的事实、偏好、项目背景,永久存储,支持全文检索;技能记忆:从经验中沉淀的可复用流程,即结构化技能文档,可随时调用;用户画像记忆:自动学习用户的工作习惯、沟通风格、偏好设置,实现真正的 “越用越懂你”。
训推一体
数据安全定级
多Agent联合学习与经验积累的核心在于• 协作式探索• 经验共享• 动态优化
1.Gang 成组调度2. 拓扑感知调度3.调度策略插件
存储访问协议
3. 格式强制原则:明确规定输出的结构化格式(JSON/Markdown/XML),用 Schema、标签约束输出,避免格式不稳定导致下游系统解析失败;
实验生命周期管理
数据集成
4. 模型原生能力适配:使用模型原生支持的格式约束能力,比如 GPT-4o、Claude 3 支持的 JSON Mode、Structured Outputs,从模型层面强制输出符合 Schema 的内容,这是最稳定的方案;
7. 分步执行原则:复杂任务用 CoT 拆解为多步执行,强制模型分步完成,避免逻辑跳跃;
核心能力:Agent 实例池化管理、弹性扩缩容、模型推理流量调度、算力资源的配额管理、多租户资源隔离、故障实例的自动迁移与恢复。生产级特性:兼容 K8s 容器化部署,支持多集群、多可用区部署;支持多租户的资源配额与隔离,满足企业级多业务线的复用需求;支持故障自动转移,实现高可用部署。
Prompt 核心设计原则
容器网络模型
训练服务
工具反馈观察结果
向量检索
核心职责:负责所有 Agent 任务的全生命周期管理,是业务需求与 Agent 执行之间的桥梁。核心能力:任务拆解与 DAG 编排、优先级调度、依赖管理、子任务分发、多 Agent 协同调度、任务状态追踪、终止与回滚控制。生产级特性:支持任务的定时执行、周期执行、事件触发执行;支持复杂任务的 T-DAG(有向无环图)编排,实现子任务的并行、串行、依赖执行;支持任务的暂停、恢复、终止、回滚操作。
推理服务管理(平台层能力)
全链路故障自愈体系构建从基础设施到应用层的自动化故障处理闭环:秒级健康检测 + 故障根因分析→自动执行故障隔离(流量切走、节点摘除)→自动恢复(实例重建、主备切换、弹性扩缩容),全程无需人工干预,大幅缩短故障停机时间。
微服务管理服务网格、Istio
零拷贝(Zero-Copy)
1. 安全合规与访问控制数据脱敏:自动识别并脱敏身份证号、手机号、银行卡号等敏感信息细粒度访问控制:基于角色的权限管理(RBAC),支持文档级、段落级、实体级的权限控制审计日志:记录所有用户的查询、检索、生成操作,支持审计和追溯国产化支持:完美适配国产大模型(通义千问、文心一言、智谱清言)、国产向量库(Milvus、NebulaGraph)和国产硬件(昇腾、昆仑芯)私有化部署:支持完全私有化部署,数据不出企业内网
项目管理、需求跟踪Jira、Trello
交互式分析HetuEngine
9. 其他重要组件
B200 SXM+192GBHBM3e
实时流处理
4. 滚动摘要策略(多轮对话场景):对话超出窗口时,让模型把早期对话压缩成核心摘要,用「摘要 + 最近对话」替代全量历史,既保留核心信息,又控制 Token 消耗,是智能客服、长对话场景的工业界标准方案;
对象存储:对象级存储(OSS/COS)+多副本/ 纠删码 + 智能缓存 + 分层存储
实时加载
数据开发
三、高级检索与动态工作流编排:RAG 系统的 \"智能指挥官LlamaIndex 在此层将 RAG 从 **\"检索 - 生成\" 的线性链路升级为\"会思考、能自愈\" 的智能系统 **,解决传统 RAG\"检索什么就生成什么\" 的机械性问题。
Agent知识交接子Agent总结汇报给主Agent
演进
腾讯云 TCHouse-P
知识图谱数据库:Neo4j ArangoDB
技术挑战
云原生混部
1. 接口幂等设计:避免重试导致的数据重复与异常;2. 分布式事务保障:基于 TCC/SAGA/XA 模式实现跨服务数据一致性;3. 业务日志全量留存:操作日志、异常日志持久化存储,支持故障溯源与数据回滚。
监控与运维
并行化+投票 (Parallel+voting)
Citation subagent:数据应用Agent1. 避免不必要的引用;2. 引用完整的语义单元;3. 让句子碎片化最小化;4. 避免相邻的冗余引用
硬件防火墙
Agent SkillsAgent工具
数据加速:分布式存储(对象存储、分布式文件系统)DataCache、数据预加载高速读写、小文件优化
A2A(Agent to Agent)
环境沙箱
节点
Self-Discover
Agentic Rag智能体增强 RAG
Multi-Agent 评估
四、推理引擎与评估闭环:RAG 质量的 \"品控官\":LlamaIndex 在此层解决的是RAG 效果不可控、不可量化、无法持续优化的问题,建立数据驱动的质量保障体系。
数据源
Factor 8: Own Your Control Flow # 原则8:掌控自己的控制流
核心技术能力
5. 后处理兜底校验:用代码做最终的格式校验、清洗、修复,比如用正则提取 JSON 内容,过滤掉额外的文本,用 JSON 库解析,解析失败时触发重试或兜底逻辑;
问题:用户问题模糊不清,传统 RAG 无法理解用户真实意图,导致答非所问解决方案:使用 LlamaIndex 的意图路由 + 查询重写 + 反问机制,当问题模糊时自动反问用户澄清,直到获取足够信息
即时检索Agentic Search:主动机制:ReAct渐进式披露+元数据梳理优势:即时信息+高信噪比+探索能力
Navie Rag原生 Rag
二、核心增强功能Volcano Global 在 Karmada 基础上,针对 AI 场景提供了专属调度能力,核心包括:Volcano Job 原生跨集群调度:原生支持 Volcano Job 的跨集群部署与调度,可充分利用多集群的分散资源,提升大规模 AI 任务的执行效率。跨集群全局队列优先级调度:支持跨集群的队列优先级统一管理,保障高优先级队列的任务优先获取全局集群资源。作业级优先级与排队机制:在多集群环境中,支持作业维度的优先级调度、排队管控,确保核心业务的关键任务可及时执行。跨集群多租户公平调度:提供全局的多租户公平调度能力,保障不同租户间的资源分配公平合理,避免跨集群的资源争用问题。
全模型兼容层
MLflow + Kubeflow 协同架构
条件
主数据规范
subagent-1
3. 编译优化模型编译 (AOT/JIT)硬件专属编译优化
流处理引擎Flink SQL
生产级 Harness 标准架构(三大平面 + 七大核心模块)
五、人工评估方法(最准但最贵)
分布式训练技术:数据并行 DP张量并行 TP流水线并行 PP3D 并行 FSDP 完全分片数据并行MoE 专家并行
长期记忆:语义记忆:是什么程序记忆:怎么做情景记忆:何时何地做
Temperature:控制模型生成内容的随机性、创造性与发散程度,是最常用的调参项,本质是调节 token(模型最小处理单位)概率分布的平滑度。
1. Kubeflow Notebooks(交互式开发环境)
2. 指令清晰原则:用祈使句明确任务目标、输出要求、禁止项,拆分复杂任务为多个子指令,避免模糊、歧义的表述;
存储
多模态混合索引体系:最佳实践:生产环境必须使用向量 + 关键词 + 图谱三重混合索引,综合召回准确率可达 94% 以上,比纯向量检索提升 25%。
数据集成数据标准
Prompt 的效果?有哪些核心指标?
MLflow Data
构建工具、依赖管理Maven/Gradle/npm/Yarn
Kubeflow 流水线触发训练
存储设备
文本结构分割:句子切分段落章节
应用性能管理
消息
模型注册到 MLflow
并行化 (Parallelization)
加速优化(推理核心性能)
全栈AI+Cloud云原生技术纯享版-持续更新
Streaming流式输出
存储控制器
4. 模型注册中心
5. 子 Agent 分治策略(复杂任务场景):主 Agent 把超长任务拆分为多个子任务,分派给不同的子 Agent,每个子 Agent 在独立的上下文窗口中完成专项任务,仅向主 Agent 返回精炼的结果摘要,避免主上下文被污染;
统一元数据管理&统一权限管理
腾讯云 EMR + TCHouse-D
初始化智能体:使用相同系统提示词、工具集、控制框架
存储网络分类
架构设计核心要点上下文智能路由:摒弃全量上下文注入的粗放模式,基于当前执行步骤、任务目标,智能筛选、压缩、召回相关上下文,最大化保留有效信息,最小化上下文窗口占用,解决上下文腐烂问题。记忆生命周期管理:内置记忆的过期清理、脱敏归档、GC 机制,避免记忆无限膨胀,同时满足合规要求。结构化状态存储:将任务进度、子任务完成情况、依赖关系等结构化状态,独立存储在关系型数据库中,而非纯文本上下文,支持精准的任务调度与状态回溯。
隔离
技术背景
缓存加速(Cache Acceleration)
Text Spliter
发布
核心职责:构建 Agent 的全链路安全护栏,确保 Agent 的所有行为符合业务规范、法律法规、企业安全要求。
数据质量改进
• 作用:提供托管的 Jupyter/JupyterLab 环境,数据科学家可直接在 K8s 上做数据探索、实验、调试。核心能力: • 多租户、资源隔离(CPU/GPU/ 内存按需申请)。 • 一键启动、自动调度到 GPU 节点。 • 与 Kubeflow 其他组件(Pipelines、Training)无缝打通。
硬件全卸载
资源池
湖仓一体
作用:端到端 ML 工作流编排引擎(基于 Argo Workflows),把数据预处理、训练、评估、部署串成可复用、可版本、可复现的流水线。核心能力: • 可视化 DAG 设计、运行、对比。 • Python SDK 定义流水线(DSL)。 • 缓存、重试、超时、条件分支、循环。 • 实验管理、运行记录、Artifact 追踪。
半虚拟化(XEN)OS部分指令直接调用硬件
服务器
PyTorch
火山引擎:HiAgent+AgentKit
版本管理
Testing
批量数据接入
Factor 7: Contact Humans with Tool Calls # 原则7:人机协同
开源模型:Qwen-EmbeddingBGE
寒武纪主流型号
Memory
Vector Store
4. 中间件层:应用与数据的桥梁核心目标:保障缓存、消息、协调组件的持续可用,同时避免中间件故障导致的数据丢失。
6. 安全护栏统一化:所有 Agent 的 Prompt 都必须包含统一的合规规则、安全护栏、权限边界,同时每个角色根据自身职责,补充专属的权限约束,比如财务 Agent 只能读取财务数据,不能修改代码,避免越权操作。
腾讯云:Tencent Cloud ADP
语义切分:AI21SemanticTextSplitterBert文本切分
3. CI/CD 工具
Atlas 800T A3
核心职责:实现 Agent 实例、模型资源、算力资源的统一调度与管理,支撑 Agent 的规模化部署与水平扩展。
...
Stop Sequences:设定模型停止生成的触发词 / 符号,当模型生成的内容匹配设定的停止序列时,会立即终止输出,精准控制生成的边界和格式。模型是逐 token 生成内容的,一旦输出内容匹配你设定的停止序列,就立刻停止,不会继续生成额外内容。
昇腾CCAE(Cluster Computing AI Engine)
ACP智能体通信协议
Rubin 架构(2026,即将发布)
业务库
5. 角色能力与模型匹配:不同角色的 Agent,在 Prompt 中绑定适配的模型、参数,比如复杂推理的 Agent 用强模型、高 Temperature,简单执行的 Agent 用轻量化模型、低 Temperature,平衡效果与成本;
资源与调度
Plan and Solve
2. 流量调度与负载均衡层:请求分发的中枢核心目标:实现请求的精细化路由、故障自动转移,避免单点故障传导到后端业务。
多集群AI作业调度
核心特性1. 三级精细化资源配额控制支持 CPU、内存、GPU/NPU 等多维度资源配额,通过三级参数实现资源的保障、弹性与上限管控,核心配置规则与含义如下:guarantee:资源预留量,仅当前队列可用,其他队列无法占用,是队列的资源保障下限;deserved:资源应得量,集群资源紧张时队列可稳定获得的资源量;集群空闲时可借用其他队列的空闲资源,资源紧张时超出该值的超额资源会被回收capability:资源使用上限,队列可占用的最大资源量,是资源占用的天花板2. 多层级队列管理支持树状多层级队列结构,兼容 Yarn 式的资源管理模式,便于大数据工作负载向 Kubernetes 迁移;实现父子队列间的资源继承、隔离,支持跨层级的资源共享与回收。3. 智能资源弹性调度资源借用:允许队列使用其他队列的空闲资源,最大化集群整体资源利用率;资源回收:集群资源紧张时,优先回收其他队列超出 deserved 值的超额资源,保障队列的应得资源;资源抢占:支持队列内高优先级作业抢占低优先级作业的资源,确保关键任务及时执行。4. 多租户安全隔离通过严格的配额管控、基于优先级的资源分配,防止单个租户过度占用集群资源,实现租户间的资源隔离与公平调度。
全链路可观测性构建「指标 + 链路 + 日志」三位一体的可观测体系:通过 Prometheus 实现全链路黄金指标监控,SkyWalking/Jaeger 实现分布式链路追踪,ELK 实现日志统一检索;配套智能告警、根因分析能力,实现故障的提前预警与快速定位,将 MTTR(平均故障恢复时间)降到最低。
全 K8s 兼容全训推框架支持在离线混部多集群调度(Global)
华为云 FusionInsight MRS 离线计算引擎
1. MLflow Tracking(实验跟踪组件)
数据标准制定
基础设施层(HCS、BMS、容器、专属服务器)
昇腾主流型号
Presence Penalty
• 如何生成调用外部工具、执行代码等能力更强的Agent?• 如何让生成的Agent根据任务场景自主选择协作模式?
二、核心设计:HyperNode 标准化拓扑 APIVolcano 通过自定义 CRD HyperNode 实现网络拓扑的标准化表达,解决传统节点标签方式语义不统一、拓扑表达不精准的问题,核心特性如下:树状层级结构:一个 HyperNode 对应一个网络性能域(通常映射为交换机 / Tor),叶子 HyperNode 关联集群真实节点,非叶子 HyperNode 关联其他 HyperNode,形成层级化拓扑;节点通信效率由 HyperNode 层级跨度决定,层级越低、跨度越小,通信效率越高。
流量调度分发:负载均衡
高可靠
6.高可用架构健康检查、自愈限流、降级、熔断灰度、蓝绿、彩虹
总结/摘要
LLMCompiler
滑动窗口(加载最近 n 轮思考)、状态总结(加载上一步行动与观察结果)、失败复盘(加载所有失败步骤)
简单检索HBASE
镜像市场
3. Kubeflow Pipelines (KFP)工作流编排中枢
提示词攻击:直接注入间接注入越狱提示词泄露训练数据投毒
闭环实现:Agent 向 Harness 发起任务终止请求,声明任务完成。Harness 立即拦截终止请求,不直接放行。读取原始任务目标、交付要求、验收标准,自动校验交付物的完整性、合规性、正确性。校验不通过:驳回终止请求,强制 Agent 继续执行,同时注入明确的优化方向。校验通过:放行终止请求,完成任务归档。
Tools
数据模型认证
运营运维
存储格式:Parquet、ORC
Router
原则八:并行工具调用极大提升性能
三、管控平面五大核心模块(Harness 的灵魂)
华为云GaussDB(DWS)
寒武纪服务器
五大场景:同城灾备、异地容灾、同城多活、两地三中心、异地多活组合方案:混沌工程常态故障演练、全链路性能压测、分钟级拨测探活、可编排容灾多活自动切换、可观测大屏形成完整高可用攻防系统,多活秒级RTO、容灾分钟级RTO编排基座:可编排容灾多活切换流程、动作、检查点和插件,一键自动切换专业服务:咨询+架构诊断+多活容灾实施方案+故障演练+友商搬迁权威认证:MAS应用多活、CPTS全链路性能压测、 CAST-ARS混沌工程三大核心能力获得中国信通院先进级最高权威认证和业界最佳实践
1、监控指标体系:核心指标包括任务成功率、平均执行耗时、Token 消耗、工具调用成功率、异常率、熔断次数、SLA 达标率,支持实时大盘、告警通知。
架构价值:将错误闭环在 Harness 内部,避免错误流出到生产环境,大幅提升 Agent 输出的稳定性与可靠性。
AIOps/MLOps
Volcano Scheduler:负责在离线作业的统一调度,提供队列、组、作业优先级、公平调度、资源预留等多种抽象,统一满足微服务、大数据、AI等业务调度需求。
主数据
数据安全
一、核心定位与目标解决 AI 场景 GPU 资源利用率不均衡的行业痛点:小型推理 / 轻量训练负载单 GPU 资源浪费,大规模负载算力未充分挖掘;通过 vGPU 能力实现 GPU 资源的灵活分配,大幅提升集群 GPU 利用率、降低算力成本,同时兼容不同硬件能力与业务性能需求。
Hopper 架构(2022)
解决方案
路由 (Routing)
接入 / 汇聚 / 核心交换机
YangtseVPC路由网络
• Grader(阅卷):基于评分规则(Rubric)的打分逻辑脚本,实现自动化判分。
情景:行为规则(系统提示词)程序:few-shot少样本案例(动态提示策略)语义:语义识别和意图识别有效性
数据检索
灵衢网络架构
计算虚拟化
灰度发布
数据管理
All Gather(全收集)
自动化测试、质量分析JUnit、PyTest、SonarQube
存储虚拟化关键技术
5.高性能网络gRPC / HTTP2RDMA 推理加速无损低时延网络
知识图谱
Chains
网络:Spine-Leaf 拓扑 + 1:1 带宽收敛比 + 无损 RDMA + ECMP 负载均衡
集群调度 / 任务管理
Agent工具技术
SSM(选择性状态空间模型Selective SSM,代表Mamba) 与文件系统的黄金组合
推理 profiling
评估方法
2. 上下文获取:从多源异构数据源(文档、数据库、API、对话历史、工具返回结果)提取、清洗、标准化上下文信息,包括 RAG、实时数据接入等;
Templates
二、Kubernetes 原生调度能力的兼容与增强Volcano 通过predicates和nodeorder两个核心调度插件,完整对齐 K8s 原生调度框架的全流程,同时针对批处理场景做了深度性能与能力增强。1. predicates 插件:预过滤 / 过滤阶段兼容与增强该插件完整实现了 Kube-Scheduler 的预过滤 - 过滤全流程,同时提供专属增强特性:原生兼容能力:覆盖基础资源过滤、节点 / Pod 亲和性与反亲和性、节点端口 / 存储卷约束、Pod 拓扑分布约束、K8s 动态资源分配 DRA 等所有原生过滤规则;增强特性 1:节点过滤结果缓存:针对批量相同配置 Pod 的调度场景,缓存节点静态检查结果(节点标签、污点等),避免重复计算,显著提升大规模批量任务的调度性能;动态资源(CPU、内存用量)检查仍会实时计算,节点状态变化时缓存自动失效;增强特性 2:完整支持 DRA 动态资源分配:支持 GPU 等硬件资源的灵活请求、分配与共享,提供了从容器运行时配置、K8s APIServer 启用、Volcano 特性门控开启到调度插件配置的全流程支持,可对接 NVIDIA、Intel 等厂商的官方 DRA 驱动。2. nodeorder 插件:打分阶段兼容与增强该插件在完全兼容 K8s 默认打分机制的基础上,实现了更灵活的调度策略与更高的调度效率:原生兼容能力:覆盖 K8s 所有原生打分维度,包括资源水位、亲和性、污点容忍、镜像本地性、拓扑分布等;核心增强 1:可配置权重体系:所有打分项均支持自定义权重,可灵活调整节点选择策略(如资源打散 / 打包、亲和性优先级等),适配不同业务场景; 2:并行打分处理:通过并行计算提升大规模集群的调度效率,尤其适配 AI 训练等批量任务的高并发调度需求。
4. MLflow LLM 专项能力组件核心定位:针对大语言模型、RAG、Prompt Engineering 场景的专项管理能力,是 MLflow 2.0 + 版本的核心更新方向,适配当前 LLM 落地的核心需求。核心能力:Prompt Engineering 全生命周期管理:记录 Prompt 的版本、参数(Temperature、Top P 等)、模板、输入输出,支持版本对比、回滚;RAG 流水线全链路跟踪:记录检索的上下文、分块策略、嵌入模型、生成结果、评估指标,完整复现 RAG 效果;LLM 实验跟踪与对比:对比不同 Prompt、不同模型、不同检索策略的效果,筛选最优方案;开源 LLM 的打包与部署:支持 Hugging Face、Llama、Qwen 等开源 LLM 的标准化打包、一键部署,自动处理依赖、推理优化。
2. 服务发布与托管一键部署推理服务多版本、灰度发布、流量切分自动扩缩容、缩0(Serverless)
无单点原则:所有组件、链路、硬件都必须实现冗余部署,消除任何单点故障。故障隔离原则:通过单元化、舱壁模式、限流熔断,避免故障在链路中传导,缩小故障影响范围。自动化优先原则:故障的检测、隔离、恢复全部自动化,减少人工操作的失误与延迟。冗余与成本平衡原则:根据业务等级制定差异化的高可用 / 高可靠策略,核心业务极致保障,非核心业务平衡成本与可用性。持续验证原则:通过混沌工程、备份恢复演练,常态化验证高可用能力,避免架构设计与实际能力脱节。
路由控制:路由表
Frequency Penalty:按 token 的出现频率动态施加惩罚,出现次数越多,惩罚越强,核心解决「车轱辘话反复说、同一个词 / 句子重复出现」的问题,降低文本重复度。
完全模型无关,支持 200 + 主流大模型,一键切换,无需修改业务逻辑:支持商用模型:OpenAI、Claude、Gemini、DeepSeek、通义千问、文心一言等;支持开源模型:通过 Ollama、OpenRouter、Nous Portal 接入本地部署的大模型;核心特性:自动模型路由、失败自动降级、Token 消耗统计与优化。
核心构成要素:角色、背景、任务、约束、示例
SAN:FC SAN(Fiber Channel Storage Area Network)和 IP SAN(IP Storage Area Network)
RDMA(Remote Direct Memory Access,远程直接内存访问)
重排序:Top-kcross-encoder深度语义匹配/ms-marco
Jupyter Notebooks
多副本与纠删码(EC)
主数据定义
Transform Chain
多样集市
Blackwell 架构(2024)
单机内网络:NPU 高速互联HCCS 全互联(A2/A3)或 灵衢总线(A5)
云原生、DevSecOps
五、两大企业核心能力
Models I/O
入湖方案制定
B100 SXM+80GBHBM3e
原生内置 40 + 开箱即用的工具,同时提供 6 种隔离执行环境,兼顾灵活性与安全性,完全符合 Harness Engineering 的最小权限原则:内置工具:网页搜索、文件操作、终端命令、多模态视觉、图像生成、TTS、浏览器控制等;执行环境:本地、Docker、SSH、Daytona、Singularity、Modal,所有工具调用都在沙箱中隔离执行,避免越权操作与系统风险;兼容标准:原生支持 MCP(Model Context Protocol)协议,可接入海量第三方 MCP 工具。
LangServer
1. 转发规则持久化与多副本同步:负载均衡配置实时同步到集群所有节点,单节点故障不丢失配置;2. 请求全链路追踪:透传 TraceID,实现请求从接入到后端的全链路可追溯。
其他数据库:Postgres、RedisMilvus、Mem0
• Fairing:本地代码一键打包镜像、提交到 Kubeflow 训练 / 部署。• Spark Operator:K8s 上运行 Spark 做数据预处理、特征工程Kubeflow。• Feast(Feature Store):集成特征存储,管理离线 / 在线特征Kubeflow。
推理池化管理:实现模型推理请求的池化、排队、批量处理,提升推理吞吐量;支持模型的预热、保活,降低推理延迟;支持推理请求的超时控制、重试机制。
核心调度能力
四层持久化记忆引擎(Context 工程落地)
在线模型:OpenAI Embedding智谱AI Embedding
ProcessON
模型管理:checkpoint 保存、断点续训、版本管理
数据地图
输入清晰分类,处理过程和逻辑差异明显
Sequential
分布式存储
控制面(Control Plane)kube-apiserver:认证、授权、准入控制etcd:存储集群关键状态:Pod配置、Service规则、用户权限kube-scheduler:自定义调度策略(亲和性、误点、容忍、资源配额限制)、资源状态、资源需求、动态调整分配逻辑kube-controller-manager: Deployment 控制器、 StatefulSet 控制器、 Node 控制器、Service 控制器cloud-controller-manager:对接云厂商 API、负载均衡、对象存储等控制面辅助组件:HaProxy/NGINX、kube-aggregator
HBRM(Hardware Bandwidth Resource Management,硬件带宽资源管理)
规划
增量进度:一次完成一个任务目标,记录更新完成状态
核心定义:RDMA 是一种硬件加速的高性能网络通信技术,核心能力是绕过操作系统内核和 TCP/IP 协议栈,让一台主机的应用 / 硬件直接读写另一台主机的内存(含 GPU 显存),全程无需 CPU 参与协议处理和数据拷贝。
4. Katib(自动机器学习 / AutoML)
Dorado
1. 通用推理框架容器化、K8s 编排Serverless、Knative 弹性服务网格、流量治理
持续学习闭环自动收集用户反馈(点赞、点踩、修改建议)定期分析用户反馈和评估结果,识别常见问题自动优化检索策略、提示词模板和分块参数形成 \"数据→索引→检索→生成→评估→优化\" 的完整闭环
2、细粒度操作权限:针对工具、API、数据、资源,实现操作级的权限管控(如文件只读 / 读写、API 的 GET/POST 权限、数据库的查询 / 修改权限)。
加速技术:混合精度 / FP8 训练梯度累积、ZeRO 优化算子融合、算子编译、图优化检查点断点续训
All to All(全对全)
分层存储(Tiered Storage)
Max Length:限制模型输出的最大 token 数量,精准控制回复篇幅,同时管控 API 调用成本(绝大多数大模型按 token 计费)。
Kubeflow 关键技术组件
5. LoRA 低秩适配(目前最主流)生活案例:给学生加一副 “作文专用隐形眼镜”• 学生本身完全不动。• 戴上一副轻薄眼镜,只修正看世界的角度,不改变大脑。• 写完作文,眼镜可以摘掉、换一副、存起来。• 推理时:眼镜直接融到眼睛里,看不出区别,速度不变。• 对应微调:只训练低秩小矩阵,效果接近全量,无推理延迟,工业标配。
6. 正式训练(核心执行)前向传播:输入 → 模型 → 输出计算损失:loss反向传播:梯度计算参数更新:优化器更新权重日志与监控:loss、吞吐量、利用率、lr训练阶段:预训练 Pre-training(学语言 / 知识)监督微调 SFT(学任务 / 指令)RLHF/DPO(对齐人类偏好)
云原生大数据计算平台 + 离线数仓引擎
1. 偏好对齐质量AlpacaEval、MT-Bench:让更强模型(GPT-4/Claude)当裁判打分。Win Rate:新模型 vs 基线模型,人类 / AI 更喜欢谁。2. 奖励模型相关性RM 打分与人类打分Pearson/Spearman 相关系数越高说明 RM 越准。3. 多样性 & 不重复Self-BLEU、Dist-n(distinct n-gram)防止模式崩溃、复读机。4. 对齐不崩溃通用能力不掉、知识不忘、流畅度不降对比 SFT 前后 PPL、MMLU 等
CPU、内存、主板、RAID 卡、HBA 卡、机柜、机架、电源模块、UPS、精密空调、散热风扇
文件
User Request
作用:记录数据集、模型、训练任务、流水线、Artifact之间的血缘关系。核心能力: • 实验可复现、审计、问题追溯。 • 数据 → 特征 → 模型 → 服务全链路可追踪。
知识图谱检索:问题-实体相似度识别社区聚类检索
容器
直接交互扩展为外部可交互持久化环境
4. 模型选型与初始化基座选择:开源基座 / 自研从头训结构配置:层数、维度、头数、参数量、上下文长度权重初始化:随机初始化 / 加载已有预训练权重分布式配置:TP/PP/DP/FSDP/MoE 并行策略
可视化可观测Grafana
DevOps生命周期
Client Libraries(客户端库)
流处理引擎
环境管理
阿里云MaxCompute
云函数 SCF
算力调度引擎 Volcano
Language Agent Tree Search (LATS)
控制面
多租户&队列资源管理
安全沙箱与工具系统
可视化与报告
4. MLflow Model Registry:模型注册与生命周期管理组件
测试
FG
DevOPS+Security
LakeFormation
短期记忆实时处理
解决的核心痛点:Agent 在长周期、多轮次执行中,输出质量逐渐下降,累积技术债务、冗余内容、逻辑偏差,最终偏离任务目标。
算力-带宽失衡
系统Prompt
Volcano 的统一调度能力,核心是打造单调度器全负载覆盖的调度体系,在完全兼容 Kubernetes 原生调度能力的基础上,扩展了面向 AI、大数据、高性能计算场景的批处理调度能力,实现用一套调度系统管理集群内所有类型的工作负载,大幅简化集群调度运维复杂度。
• 决策权重比例分配• 流程可引导性• 消除Agent偏见
4、权限审计与动态变更:所有权限的申请、变更、使用,都记录在审计系统中;支持权限的临时授权、过期自动回收。
wo3ku 作品
Gaea华为云高性能网络节点
安全资源池
DBService
2. 成本与性能优化企业级 RAG 的成本主要来自大模型调用和向量检索,LlamaIndex 提供多种优化手段:多级缓存:查询缓存、检索结果缓存、LLM 响应缓存,缓存命中率可达 60% 以上,成本降低 50%批量处理:支持批量索引和批量查询,提高吞吐量模型蒸馏:用大模型生成的答案微调小模型,用小模型处理简单查询资源监控:实时监控系统的吞吐量、延迟、成本,提供优化建议
GUI-Agent
日志服务ELK
Multi-Agent拆分原则
Raid磁盘阵列
云防火墙、WAF、微分段、ACL 访问控制、流量清洗
按需索引
Lead Prompt四步思考循环:评估、分类(深度优先、广度优先、直接查询)、计划、执行
• 任务复杂度量化• 动态路由策略设计
执行平面是 Harness 管控规则的落地载体,是 Agent 执行任务的核心链路,所有模块的行为均受控于管控平面。标准执行范式(增强 ReAct 状态机)生产级 Harness 摒弃了原生 ReAct 的无边界循环,采用有限状态机(FSM) 固化执行流程,所有状态流转必须经过 Harness 校验:初始化 → 感知(Observe)→ 推理(Think)→ 决策校验(Harness拦截)→ 执行(Act)→ 结果验证 → 状态持久化 → 循环/终止
Cron VolcanoJobspan style=\"font-weight:normal;\
MLflow Recipes
长期记忆持久化
统一命名空间(Unified Namespace)
运维工具
定时加载
Monitoring
VMware VMM(ESXi/Workstation)
监控、日志、追踪Prometheus/Grafana/ELK
6. 基础设施层(IaaS):全链路的底座核心目标:为上层所有服务提供硬件、机房、网络的基础高可用与高可靠保障,是整个体系的基石。
异构资源池
异构通信瓶颈
4. API 网关 & 协议HTTP/gRPC/REST API兼容 OpenAI 接口规范流式输出(Stream)支持
3. MLflow Evaluation核心定位:自动化模型评估与对比组件,实现模型评估的标准化、自动化、可视化,无需手动编写评估代码。核心能力:自动计算传统 ML 模型的核心评估指标,比如准确率、召回率、AUC、RMSE、MAE 等,自动生成混淆矩阵、ROC 曲线、特征重要性图表;支持 LLM 专项评估,包括 RAG 检索准确率、生成内容幻觉检测、相关性、流畅度、安全性评分,支持自定义评估规则;支持多模型横向对比,自动生成评估报告,可视化展示不同模型的效果差异;与 MLflow Tracking 深度集成,评估指标自动记录到对应实验中,实现训练 - 评估的全链路闭环。
4. RLAIF(RL from AI Feedback)用 LLM-as-Judge 替代人类标注流程:AI 打分 → RM → PPO/DPO
TensorFlow / Keras
1. 上下文建模:定义业务场景的上下文结构、分层规则、本体模型,明确哪些信息需要纳入上下文、信息的优先级、权限边界;
整个云原生混部架构包括Volcano Scheduler、Volcano SLO Agent、Enhanced OS几部分。
实现方案
统一数据服务设计规范
Prompt Engineering
专题集市
实时同步
React
2、工具执行沙箱:所有工具执行均在独立沙箱中运行,尤其是 Shell、代码解释器、文件操作等高危工具,实现路径隔离、权限隔离、资源隔离,避免 Agent 越权操作或污染宿主环境。
持计划与结构化
海光服务器
特征存储
1. 串行 workflow:步骤按顺序执行2.独立LLM调用:非单次 prompt 内完成所有步骤3. 显式信息流:上一步输出作为下一步输入
昇腾服务器
训练关键技术(框架核心)
• Suite(题库):一组 Task 的集合,例如客服场景下的测试题集。
7.可观测体系指标监控调用日志 & 链路追踪自动告警、异常检测
任务串行化接力:Workflow进行接力,状态和信息传递
混沌工程持续验证主动注入故障(如机房断电、网络中断、节点宕机、数据库故障),模拟真实故障场景,端到端验证全链路的高可用能力,提前发现系统隐患,避免故障在真实场景中发生。
Corrective Rag纠错型Rag
演进阶段:注意多智能体的涌现行为,警惕系统 “涌现行为”,评估协作模式合理性。
8. Central Dashboard(统一控制台)
3. MLflow Models:模型标准化打包组件
FC协议:FC是光纤通道(Fiber Channel)
顶级集成工具:MarkerMinerUMarkitdown
4. 调度优化动态批处理(Dynamic Batching)多请求复用、迭代级调度资源超配、QoS 保证
在线:爬虫(Scrapy)Wikipedia、Github、Bilibili、网页
弹性容器服务 EKS
数据治理体系
治理价值体现
数据质量标准
生产级扩展核心组件
Workflow
Serving
单点打磨:围绕同一个结果反复修改而非横向选优标准驱动:根据精确标注提供反馈;闭环迭代:满足标准或达成停止条件
3、实时鉴权机制:每一次工具调用、资源访问,都必须经过 Harness 的实时鉴权,鉴权不通过直接拦截,禁止预授权的全局权限。
实时宽表分析ClickHouse
脚本、作业开发
Enhanced OS:Volcano SLO Agent在应用层进行节点级别的QoS保证,为了进行更加精细化和强制性的隔离,内核层面也需要区分QoS类型,在CPU/Memory/Network/L3 cache等层面进行隔离,内核暴露了一系列的cgroup接口,Volcano SLO Agent可以为在线和离线业务设置不同的cgroup,做到内核层面的精细隔离,实现在线作业对离线作业的压制。
6. 上下文优化与闭环:基于推理结果、用户反馈、业务指标,持续优化上下文的建模、检索、组装策略,实现 “越用越准” 的自优化闭环。
英伟达服务器
作用:K8s 原生的分布式训练 Operator,为主流框架提供 CRD(自定义资源),管理大规模分布式训练任务。核心组件: • TFJob:TensorFlow 分布式训练 • PyTorchJob:PyTorch 分布式训练 • MPIJob:通用 MPI 分布式训练(XGBoost、LightGBM 等) • MXNetJob:MXNet 训练核心能力: • 声明式定义训练任务(YAML)。 • 自动调度多 Pod / 多 GPU 分布式训练。 • 容错、故障重启、弹性扩缩。
多部署模式适配
Knative框架(Serverless)
3. 硬件专属推理引擎TensorRT(NVIDIA)MindIE(昇腾)ONNX RuntimeOpenVINO(Intel)
离线数据湖
3. Prefix Tuning 前缀微调生活案例:给学生发一张 “作文专用小纸条”,每写一句都看一眼• 学生本人不动,知识不动。• 纸条上写:“先开头→再举例→最后总结”• 每一层思考都偷偷看这张纸条,引导思路,但不改脑子。• 对应微调:给每一层注意力加可训练前缀向量,不改动模型权重,适合生成任务。
大模型解决方案架构师
3. 环境与资源准备算力集群:GPU/NPU 服务器、无收敛叶脊网络存储:对象存储 /文件存储/存数据/ checkpoint框架环境:PyTorch / MindSpore + 分布式通信库(NCCL/HCCL)容器镜像:统一依赖、CUDA/CANN、加速库
关系型数据库(MySQL / 分布式数据库):全量备份 + 增量 binlog 备份,定时快照,跨地域备份,备份恢复常态化演练;闪回查询、数据校验,ACID 事务保障数据一致性对象存储(S3 兼容):多副本 / EC 纠删码冗余,跨可用区 / 跨地域数据复制,数据持久性可达 11 个 9 以上;版本控制、WORM、回收站机制,防止误删除;数据校验与自动修复块存储 / 分布式文件存储:三副本实时同步,快照备份,远程复制,数据加密,坏盘自动数据重建
• 挑战10:多Agent系统评估与基准测试
训练服务过程
数据服务生命周期管理
虚拟 NUMA(vNUMA)
实现业务上线有数据的快速传递共享,提升业务运作效率
RoCE v2
Outcome(结果):最终的评估标准,是判断 Agent 表现的核心依据。
优先级调度与拥塞控制
• 挑战6:多Agent集体决策优化
知识库选择
Agent上下文限制
二层Spine-Leaf架构
数据质量
硬件环境
英伟达 DCGM + NGC + Base Command Manager + NVIDIA AI Enterprise 运维套件
1. 核心执行引擎模块(Agent 的心脏)
Exporters(导出器)
技术元数据
3、参数校验与结果清洗:工具调用前,Harness 自动校验入参的合法性、合规性、权限范围,拒绝非法参数;工具执行后,自动清洗结果中的敏感信息、冗余内容,格式化后注入上下文,避免无效内容占用上下文窗口。
3. 权限管控模块
企业级推理引擎:多模型路由:自动根据问题复杂度选择最合适的大模型,简单问题用小模型,复杂问题用大模型,成本降低 70%上下文管理:自动管理多轮对话上下文,支持超长上下文(100K+ tokens),自动压缩和裁剪无关内容提示词工程平台:内置企业级提示词模板库,支持提示词版本控制、A/B 测试和灰度发布引用溯源:自动为答案中的每个事实添加引用来源,点击可跳转到原始文档的对应位置
Oozie
2. 全局目标强绑定:每个 Agent 的 Prompt 开头,必须明确全局业务目标,以及该角色对全局目标的贡献,让每个 Agent 的行为都围绕全局目标展开,避免局部最优导致全局最差;
文件资源池
架构价值:确保任务交付的完整性,杜绝模型自主终止导致的半成品交付,100% 对齐用户的原始需求。
并行召回(向量搜索即语义检索、关键词搜索、知识图谱)、Agentic Search、重排序
数据飞轮
• 现有基准测试的局限性• 多Agent系统的复杂性• 场景适用性与任务准确性
静态路由、动态路由、路由策略、子网路由隔离
1. 模型服务框架
7. Volcano 调度集成(资源调度中枢)
主数据识别
数据治理价值
边
核心职责:基于零信任架构,实现 Agent 的细粒度权限管控,是企业级 Agent 的核心准入门槛。
Multi-Agent 提示词工程八条原则
时序IoTDB
H100 PCIe+80GB HBM3
通知、备份管理
测试评估:Agent测试评估标准
镜像Image
Discord
阿里云湖仓一体:Delta Lake、ADB
有效的数据质量监控
原则二:教会指挥官如何授权
原则五:让智能体参与自我改进
总结对话历史:提取任务概览、关键抉择
异构算力精细化调度
Hudi
Paralllelization并行执行多任务
短期记忆草稿纸(Scratpad)
多Agent之间的记忆共享和协同学习能力
腾讯云:语义感知 +VStation优先级调度 + 全局优化
CPU:4 × 鲲鹏 920(新一代)NPU:8 × Atlas 300I A5(昇腾 910B5/910C,更高能效)算力:INT8 1400+ TOPS,能效比提升 30%+网络:200GE/400GE 灵活配置
Frameworks for Training • Chainer • MPI • MXNet • PyTorch • TensorFlow
动态上下文:感知外部实时信息推理前检索Rag+即时检索Agentic Search
瞬时记忆:未加工原始信息任务结束淘汰
SCSI协议:小型计算机系统接口
Storm
全量、增量集成
Retriever
批处理引擎Spark
治理诉求
Action
User
vCPU(云厂商技术)
MLflow Models
监控
数据版本控制
标签分类管理
部署
Workflow设计模型
3. 记忆与上下文管理模块(Agent 大脑记忆)
1、标准化工具注册中心:支持工具的元数据注册、可用性探活、版本管理、动态上下线,兼容 OpenAPI、MCP、Function Call 等主流协议,实现工具的一次注册、全平台复用。
MLflow Projects
函数计算 FC
数据安全访问控制
Decentralized Network去中心化架构
4. 协同规则明确化:在 Prompt 中明确该 Agent 的上下游协同对象、通信规则、异常上报流程、升级策略,比如 “如果需求不明确,必须向产品经理 Agent 发起澄清,禁止自行假设需求;如果执行失败,立即向总管 Agent 上报,附带失败原因”;
物理路由器
分离 “思考” 与 “执行”:沙箱是 “状态化环境”,隔离 “真实环境的状态”
Paln and Execute
结果生成评估指标:Bleu、幻觉率ROUGEBERTScore
数据存储
Factor 9: Compact Errors into Context Window # 原则9:将错误压缩进上下文窗口
openAI Function
高可用
数据探查/画像
云原生网络
阿里云 AnalyticDB(ADB)
https://support.huaweicloud.com/usermanual-cce/cce_10_0423.htmlhttps://volcano.sh/zh/docs/
分布式训练 profiling
6. QLoRA 量化 LoRA(单卡神器)生活案例:给学生戴 超薄超轻折叠眼镜 + 简化课本• 在 LoRA 眼镜基础上:把课本内容压缩成迷你版,不影响理解,但超级省空间、省力气。• 原本要搬大书包,现在口袋书就能学。• 对应微调:4bit 量化模型 + LoRA,消费级显卡也能训 70B 大模型,效果几乎不掉。
2.低时延高吞吐调度Dynamic BatchingContinuous BatchingPagedAttention迭代级调度
多层防护体系:输入层防护:用户请求的敏感词检测、注入攻击检测、恶意指令识别、合规校验,拒绝非法请求。推理层防护:模型 Prompt 注入防护、系统提示词防篡改、模型输出的合规校验、敏感信息过滤、幻觉识别。执行层防护:高危操作拦截、违规行为识别、越权操作阻断、执行结果的安全扫描。输出层防护:最终交付内容的合规校验、敏感信息脱敏、格式规范校验。
Pipelines:• Python SDK• DSL compiler• Pipeline Web Server• Pipeline Service• Kubernetes Resources• Machine Learning • Metadata Service• Artifact Storage• Orchestration Controllers
多机集群网络:RDMA 网络:InfiniBand (IB)或RoCEv2(以太网 RDMA)
1.模型分化加剧;2.任务需求分化;3.资源约束加剧
AI Agent架构
JAX(google)
大页内存(Huge Pages)
预训练 Pre-training(学语言 / 知识)
词向量化
SmallFS
数据质量政策
分布式缓存(Redis/Tair):主从复制 + 哨兵集群 + 分片集群架构,多可用区部署,自动主备切换;缓存穿透 / 击穿 / 雪崩防护策略消息队列(Kafka/RocketMQ):Broker 集群化部署,多副本 ISR 同步,Controller 自动选主,故障节点自动剔除分布式协调组件(etcd/ZooKeeper):基于 Raft/Paxos 一致性协议的集群部署,过半节点存活即可提供服务,多可用区部署,自动选主
企业级数据治理能力:增量同步:自动监控数据源变化,仅同步新增和修改的内容,避免全量重新索引,更新延迟 < 5 分钟数据版本控制:保留文档的所有历史版本,支持回滚到任意时间点的索引状态自动去重:基于语义相似度的全局去重,避免同一内容在多个数据源重复存储,索引体积减少 40% 以上数据清洗流水线:内置敏感信息识别、垃圾内容过滤、格式标准化等预处理节点,可自定义清洗规则
英伟达GPU
数据层
训练模型:Jupyter
多模态处理
精细化监控
Volcano SLO Agent:集群内的每个节点都会部署一个Volcano SLO Agent,动态实时计算每个节点已经分配但未使用的资源,将这部分资源进行超卖,供离线作业进行使用。同时对节点QoS进行保障,在检测到节点出现CPU/Memory压力时,对离线作业进行驱逐,保障在线业务的优先级。
Agent间不同接口、编程语言、运行环境、功能特性,支持持通信接口与协议
关键信息筛选提取
Planning
2. 架构层面优化(生产级必用)• RAG 分块检索:不要把整个文档塞入上下文,用 RAG 把文档分块向量化,基于用户问题检索最相关的 Top N 个内容块,只把相关内容放到 Prompt 里,从根源解决长上下文问题;• Map-Reduce 分层摘要:用 Map-Reduce 模式,先让模型并行处理长文档的每个分块,生成块级摘要,再把所有块级摘要汇总生成全局摘要,最后基于全局摘要回答问题;• 模型适配:选择长上下文能力经过真实场景验证的模型,比如 GPT-4o 128K、Claude 3 Opus 200K、通义千问 2 1M,避免纸面参数与实际能力不符。
全栈监控
Atlas 800 A5
HDFS
提升数据准备读,为业务运作提供可信的足量的数据支撑
事件总线能力
OBS
数据仓库
数据标准
Document Loader
离散会话失忆
• 作用:Kubeflow 统一 Web UI,管理所有组件:Notebook、Pipelines、Katib、KServe、模型、权限。
闭环实现:Harness 内置后台校验进程,在 Agent 执行过程中,定期扫描当前的执行状态、输出内容、中间结果。2. 基于预设的规范、规则、目标,识别冗余内容、技术债务、逻辑偏差、规范不符点。3. 自动发起重构、清理、修正操作,或向 Agent 注入明确的优化指令,强制 Agent 修正偏差。4. 任务完成后,自动复盘整个执行过程,沉淀优化规则,更新到全局规则库,实现长期的质量稳定。
Flume
Multi-Tenancy in Kubeflow:Kubeflow的多租户
Customized Chain
闪存阵列
网络架构
请求的优先级调度和资源分配切换时保证上下文不丢失• 异构Agent任务多样性和复杂性
1. 实验追踪
一套配置即可接入 14 + 主流消息平台,部署一次即可实现全渠道可用:原生支持:CLI、Telegram、Discord、Slack、WhatsApp、Signal、SMS 等;社区适配:飞书、企业微信、微信等国内平台的第三方适配;核心特性:跨平台对话连续性、语音备忘录转录、多端消息同步。
Broadcast(广播)
块资源池
虚拟化技术
稳态智能体上线文工程实践
训练阶段
挖掘建模
大模型的幻觉问题--Prompt层面解决方案
故障自愈与数据重建
实时数据接入
核心定位:MLflow 的核心中间层组件,定义了跨框架的标准化模型格式,抹平不同框架的模型差异,实现 “一次打包,随处部署”。核心功能:把不同框架训练的模型,打包成统一的目录格式,支持统一存储、统一加载、统一部署;自动记录模型的输入输出 Schema、数据类型、依赖库,防止生产环境输入输出不匹配;支持模型版本管理、元数据记录、血缘追踪,与 Tracking、Model Registry 组件深度集成;支持模型的批量推理、实时推理,适配不同的部署场景。
计算芯片与零件
统一调度
Prompt LLM参数调优
快照与克隆(Snapshot/Clone)
DataOps
Factor 2: Own Your Prompts #掌控好你的提示词
有限资源下进行良好的管理和调度
4. Prompt Tuning 提示微调生活案例:只在作文开头给一句引导语• 学生完全不变,只在最开始给一句提示:“请写一篇关于春天的记叙文”• 不教新东西,不改变习惯,只靠开头一句话引导。• 对应微调:只训练输入层的软提示,参数极少、极省显存,但大模型才好用。
存储、网络优化
云DNS
一、传统生成类指标(经典硬指标)
IPsec VPN、物理专线、VPC Peering、跨AZ互联
MLflow Model Registry
示例Few-shot
Overlay 虚拟化、SDN、弹性网卡虚拟化、子网隔离
Agent
• 挑战4:异构Agent间通信
运维
奖励模型(RM)+ 偏好数据
SATA SSD/HDD
图片信息切分:图片解析+文档单独切分图片链接+文档单独切分
2. Training Operators(分布式训练调度)
分布式训练支持:DP/MP/PP/FSDP/MoE
可移植运行
数据开发规范
Context Engineering(范式转移:从提示工程(战术优化)到上下文设计(架构设计))
工具集选择
构建知识图谱:实体识别关系判别实体聚类
Harness Engineering 理念深度结合,多 Agent 场景下,Prompt核心设计原则有 6 条
2. MLflow Projects:项目打包与可复现组件
数据分片与分布式一致性
3. 可观测性结合:Context 提供数据,Harness 实现管控Harness 层负责 Agent 全流程的可观测、可监控、可告警,而 Context Engineering 则为 Harness 层提供全链路的上下文数据提供核心数据来源:• Context Engineering 记录上下文的检索、处理、注入、使用的全链路 Trace 数据,同步到 Harness 层的可观测系统,实现上下文全流程的可视化监控;• Harness 层基于 Context Engineering 提供的指标(检索准确率、上下文信噪比、Token 消耗),设置告警阈值,出现异常自动触发熔断、告警;• 当 Agent 执行失败时,Harness 层可通过 Context Engineering 的全链路 Trace 数据,快速定位是上下文供给问题,还是模型推理问题,实现根因分析。
Agent Harness Engineering(生产级Agent = (LLM推理内核 + 能力组件)× Harness管控系统)
数据湖统一存储
2、全链路日志与追踪体系:基于 TraceID,实现从用户请求→任务拆解→每一次 Loop 执行→每一次模型调用→每一次工具调用→最终结果交付的全链路日志追踪,所有日志不可篡改,支持执行过程的 100% 复现。
SparkStreaming
对象资源池
数据质量管控
主流的多Agent框架多由开发者根据任务场景预先定义好Agent之间的协作模式,增加了开发工作量
Presence Penalty:只要 token 在已生成内容里出现过,就施加固定惩罚,和出现次数无关,核心鼓励模型生成新的话题、新的概念,拓展内容的广度,避免翻来覆去只讲一个点。
Volcano 提供两种 GPU 共享模式,适配不同场景,集群可同时部署两种模式的节点,支持异构集群统一调度,核心对比如下:HAMI-core(软件级 vGPU):基于 VCUDA(CUDA API 劫持技术),在软件层限制 GPU 核心与显存的使用,实现虚拟 GPU 切片Dynamic MIG(硬件级 GPU 切片):基于 NVIDIA MIG 原生技术,将单张物理 GPU 切分为多个硬件级隔离的独立实例
二、跨层全局架构设计(通盘保障的核心)单一层的高可用无法实现端到端的保障,必须通过全局架构设计实现全链路的协同容灾与故障隔离。
软件栈:HCCL + CANN ≥6.0 + RDMA 配置
第一组:动态执行(Dynamic Execution)
4. 上下文处理与组装:根据当前任务需求,完成上下文的检索、筛选、分块、压缩、去重、优先级排序,按模型要求的格式组装成最终的推理上下文;
虚拟机池
2. 工具与能力管理模块(Agent 的手脚)
滚动升级
挑战:成本与复杂性
版本控制、代码审查Git/GitHub/GitLab
阿里云 ACK:Terway
1. 无状态化设计:服务会话统一存储到分布式缓存,无本地状态依赖,支持任意扩缩容与故障节点快速替换;2. 服务网格(Service Mesh):通过 Sidecar 实现服务间熔断、降级、重试、故障隔离,与业务代码解耦,自动剔除故障服务节点;3. 弹性伸缩能力:基于 CPU / 内存 / 请求量的 HPA/VPA,以及事件驱动的 KEDA 弹性扩缩容,应对流量波动;Serverless 架构实现按需实例化,极致弹性保障;4. 安全发布策略:蓝绿发布、灰度发布、滚动发布,配套一键回滚机制,将发布故障的影响范围降到最低;5. 故障隔离模式:舱壁模式隔离服务依赖,避免单个服务故障导致的全链路雪崩;异步解耦通过消息队列削峰填谷,减少服务强依赖。
生产级进阶技术组件
Agent Tolling
编码
原则七:引导思维过程
容灾
解决的核心痛点:Agent 经常误判任务完成状态,提前终止任务,交付半成品。
目标模糊、步骤动态、需要自主决策 / 多工具协作的开放型任务:1. 多轮智能客服(主动理解意图、转接业务、解决非标准化问题)2. 自主数据分析(用户仅提目标,Agent 自主选工具 / 查数据 / 出结论)3. 复杂业务决策辅助(多信息整合、跨任务协作、动态调整策略)4. 开放域问答 + 工具调用(如联网查信息、调用计算器 / API 完成任务)5. 多角色协作任务(如智能助理、自主办公机器人)
3. 流量与调度负载均衡、流量控制、限流熔断多实例调度、GPU/NPU 调度多区域 / 多可用区分发
请求队列管理
1. 全量微调 Full Fine-Tuning生活案例:把学生重新回炉重造一遍• 原来的学生:基础很好,但写作文不太会。• 做法:从三观、习惯、知识全部重新教一遍,连写字姿势、说话逻辑都改。• 结果:作文写得超级好,但代价极大、很累、容易把以前会的东西忘掉。• 对应微调:更新模型全部参数,效果最好,但费卡、费时间、容易遗忘。
架构价值:确保 Agent 在长周期、复杂任务中,始终保持输出质量稳定,不偏离目标,实现长期的熵减,而非熵增。
逻辑数据湖
subagent-2
Kafka
1. 权责边界绝对清晰:每个 Agent 的 Prompt 必须明确、唯一的角色定位、RACI 权责矩阵、任务边界,绝对不能出现职责重叠、责任真空,比如 “你是专属的代码开发 Agent,只负责根据产品需求编写 Python 代码,不负责需求分析、测试用例编写,禁止超出职责范围的输出”,避免多 Agent 抢活、推诿;
文档分割
1. 接入层:请求入云的第一道关口核心目标:保障用户请求能稳定、安全地进入云环境,避免接入侧故障导致全局服务不可用。
4. 少样本示例原则:给 2-5 个高质量的输入输出示例,覆盖正常场景、边界场景、异常情况,对齐输出标准;
华为云:Flexus+Kunpeng-V硬件加速 + 双模式调度
6. Model Registry(模型注册表)
阿里云
公网访问 / 出口公网: IP、NAT 网关、CDN
可追踪 LLM 调用、提示词、Agent 执行步骤、工具调用全流程
计算
Research subagent:流程:研究规划、工具选择、研究循环(调整、决策、行动)
原则六:先宽后窄的搜索策略
MLflow Tracking
2. 推理引擎优化图优化、算子融合内存优化、连续 Batch动态 Batch、异步推理
云原生数据湖
数据面(Data Plane)Kublete:Pod生命周期管理、健康检查机制(存活探针、就绪探针)、监控Pod状态kub-proxy:负载均衡和网络规则转发:iptables、ipvsContainer Runtime:容器资源隔离机制、镜像管理、与kubelet通信CNI插件:容器网络连通(容器网络模型)CSI插件:存储对接(创建、挂载、扩容、快照等)Ingress Controller:反向代理服务器(如 Nginx)、HTTPS解密、路径重写、负载均衡、访问控制
1. RLHF(Reinforcement Learning from Human Feedback)算法:PPO(Proximal Policy Optimization)流程:SFT → RM → PPO 用 RM 奖励不断更新模型
GenAI / 大模型专属核心组件1. MLflow Prompt Registry(提示词管理)2. MLflow Tracing for GenAI/Agent3. MLflow AI Gateway
subagent-n
核心功能
• 挑战1:多模型协同与智能路由
高可用(HA):聚焦系统持续提供服务的能力,核心目标是减少非计划停机时间,通常用服务可用性 SLA(如 99.99%)衡量,核心是故障的快速发现、隔离与自愈。
南大通用 GBase
推理前检索(RAG):检索机制:混合检索(关键词检索+向量检索)优势:速度快+成本低+流程成熟
H800 SXM+80GB HBM3
磁带库(归档存储)
3. 应用与服务层:业务逻辑的承载层核心目标:保障业务服务的持续可用,避免业务逻辑故障导致的服务中断。
1、主体权限管理:为不同 Agent、不同用户、不同业务场景,分配独立的权限主体,实现权限的隔离。
MLflow Deployments
操作系统
痛点问题
交互式分析跨湖查询HetuEngine
事件过滤
SAS SSD/HDD
影子页表(Shadow Page Tables)
构建
5. CPO / Safety Preference Alignment专门做安全对齐、无害性偏好对:安全回答 > 不安全回答常用于风控、合规、拒绝危险请求。
BLEU看 n-gram 重叠,机器翻译最经典。ROUGE-1/2/L看精确率 / 召回率,摘要标配。METEOR考虑同义词,比 BLEU 更贴近人类判断。PERPLEXITY(困惑度)模型语言流畅度,越低越好。F1 / Acc / Precision / Recall分类、抽取、NER、指令遵循任务。
分布式SDI网关
CPU:4 × 鲲鹏 920NPU:8 × 昇腾 910/910C算力:FP16 6.0 PFLOPS,INT8 12.0 POPS互联:灵衢总线,双向 784GB/s,1:1 无收敛集群:单机 8 卡,多机可扩至 384 卡超节点
NoF网络:NVMe(Non-Volatile Memory express
原则一:像智能体一样思考,理解智能体逻辑
超过模型的上下文窗口时,主流处理策略有哪些
故障自愈
Pipelines
4. 分布式 KV 缓存(性能倍增器)
贪多嚼不烂:一次会话完成所有任务目标
数据资产
Playground
Fallbacks失败回退机制
Annotation
功能列表:避免两类失败模式,提供清晰任务目标
三、核心功能能力1. 拓扑感知智能调度策略:hard 硬约束:作业任务必须部署在同一个 HyperNode 内soft 软约束:优先将作业调度到同一个 HyperNode 内,无法满足时也允许跨域调度,兼顾性能与调度灵活性。2. HyperNode 自动发现能力支持多种数据源:原生适配 UFM(IB 网络管理平台)、RoCE、节点标签等发现源,可直接适配昇腾 GPU/NPU 集群的拓扑结构;核心特性:自动发现并同步集群网络拓扑,自动创建 / 更新 / 删除 HyperNode CR,支持自定义 Discoverer 插件扩展,可配置发现间隔与访问凭据。
大数据资源池
DevOps
关系型数据库(MySQL / 分布式数据库):基于 Raft/Paxos 的多副本集群架构,多可用区部署,RPO=0 的秒级主备切换;读写分离、分库分表,解决单库性能瓶颈;数据库 Proxy 实现故障自动路由对象存储(S3 兼容):集群化部署,元数据节点高可用,就近接入与多活访问,单节点故障自动修复块存储 / 分布式文件存储:存储双活架构,多路径链路冗余,故障自动切换;存储集群化部署,数据自动均衡
优先选 Workflow五大模式适配
专题分析
数据元接入
故障诊断 / 自愈
IaaSCloud Infra
8.模型评估与导出:验证集评估:困惑度 PPL、loss、准确率;benchmark 评测;人工评估:流畅度、安全性、业务效果;模型格式转换、导出、上线推理;
二、奖励模型 RM(Reward Model)训练方法1. Pairwise Ranking RM(成对排序,最经典)2. Pointwise RM(单点打分)3. Bradley-Terry / Plackett-Luce 多排序 RM
业务元数据
全局资源池化优化
硬件层 profiling
7.断点续训、容错与扩缩容异常断训后从最新 checkpoint 恢复多机故障自动替换节点弹性增减卡、重排分布式组
SAS协议:(Serial Attached SCSI)
阿里云:神龙架构硬件加速 + 双模式调度
Prometheus
Prompt进阶:思维连CoT、少样本提示(Few-shot Prompting)、负向约束....
作用:Kubeflow 原生的超参数优化(HPO)+ 神经架构搜索(NAS) 框架。核心能力: • 支持多种算法:随机搜索、网格搜索、贝叶斯优化、HyperBand、TPE。 • 自动并行调参、自动早停、自动选最优模型。 • 与 Training Operators、Pipelines 深度集成。
灾备
软件栈:NCCL+NVLink/RDMA (IB/RoCE/GPUDirect RDMA)
评估器 - 优化器 Evaluator-Optimizer
DAS(Direct Attached Storage 直接连接存储)
事件路由
ICAN容器隧道网络
1. 需求与目标定义:确定模型类型:LLM、多模态、CV、ASR确定规模:基座 / 微调 / 领域小模型确定指标:loss、困惑度、准确率、业务效果
多活容灾架构按业务等级适配不同架构,核心业务推荐单元化异地多活架构:将业务拆分为多个独立单元,每个单元包含完整的应用、中间件、数据库,单元内业务闭环;单单元故障时,流量自动切换到其他单元,实现地域级故障的无感知恢复,核心业务可达到 RTO<5 分钟、RPO=0 的容灾目标。配套两地三中心、三地五中心的部署模式,实现同城双活、异地灾备的分级容灾。
Knative 弹性伸缩
LangSmith
三、对齐模型专用评估(SFT / DPO / GRPO 之后必测)
IaaS中间层
统一调度与生态兼容
6. 降低模型随机性:调低 Temperature 参数(建议 0-0.3)、Top_P 参数,减少模型的创造性输出,让模型更聚焦于给定的知识,减少随机编造;
Chains as Rest APIS
HyDE Rag假设性文档嵌入
网络资源池
我用老师教学生写作文这个生活场景,把 7 种 LLM 微调方法一次性讲明白,保证看完就懂、不记公式。
iWARP
1. 核心客观量化指标(可自动化统计)• 任务成功率:输出结果符合业务要求的比例,是核心指标,比如客服场景的问题解决率、代码生成的可运行率、JSON 格式的合规率;• 准确率:输出内容的事实准确性、无幻觉比例,通过和标准答案比对、事实校验工具自动统计;• 格式合规率:输出格式符合要求的比例,能否被下游系统正常解析;• 召回率 / 精确率:针对分类、信息提取场景,统计正确提取的信息占比;• 推理耗时 / Token 消耗:单次请求的平均耗时、Token 消耗量,评估成本和效率;• 异常率:输出违规内容、格式错误、无意义内容的比例。
分布式存储节点
raid 0、1、5、10
外部记忆系统
8. 可维护性原则:Prompt 分模块编写,加清晰的注释,方便后续迭代优化,避免写一大段无结构的文本。
知识提供依据
单体式架构模式( Monolithic Architecture Pattern)
文件系统即为外部长期记忆
事件驱动的动态工作流(Workflows)支持异步执行、并行分支、错误重试、超时控制支持状态管理和断点续跑提供可视化工作流编辑器,无需编码即可构建复杂流程
3. 训练调度工具
网路虚拟化
硬件辅助内存虚拟化(EPT/NPT)
Agent 技术十大挑战
KVM
2. 数据准备(训练成败核心)数据采集、爬取、购买、业务数据接入数据清洗:去重、去噪、过滤低质、敏感信息清洗数据预处理:分词、token 化、格式标准化、分桶数据构建:预训练语料 / SFT 指令数据 / 偏好数据(RLHF)数据集划分:训练集、验证集、测试集
2. 安全合规模块(Guardrails)
全栈智能可观测平台
• 挑战5:多Agent幻觉消减
多环境隔离
TKE Serverless
Conversation Summary Memory
物联网IoT
Reduce(归约)
2. 大模型专用推理框架vLLM(最主流)Text Generation Inference(TGI)TensorRT-LLM(英伟达)MindSpeed(昇腾)LightLLM、FastLLM、Qwen-Server
应用引擎 SAE
一、推理平面三大核心模块(Harness 的底层支撑)
数据准备
Embedding Model
自动化集成
安全与访问
图GES
Prompts
可观测链路
文件即上下文
1. 模型管理模型上传、版本管理模型格式转换、打包模型生命周期管理
模型验证:Katib
Agent的角色(包括名称、职责、描述等)定义,周期长且难以适应动态任务需求
GenAI/Agent 全链路 Tracing 能力
X86(海光、Intel)
硬件辅助虚拟化Intel VT、AMD-V
集中式存储
一、背景与核心目标场景痛点:大模型训练的模型并行场景下,多节点需要高频大量数据交互,节点间网络传输性能成为训练核心瓶颈;数据中心网络(IB/RoCE/NVSwitch 等)拓扑复杂,节点跨交换机层级越多,通信延迟越高、吞吐量越低。核心目标:将训练作业调度到通信效率最优的网络性能域,尽可能减少跨交换机通信,加速数据交换,提升训练效率;同时屏蔽不同网络类型的差异,降低拓扑管理的复杂度。
Harness 架构三大核心闭环(架构精髓:将 LLM 的非确定性转化为确定性,这是 Demo 级 Agent 与生产级 Agent 的核心差距。)
VLAN/VxLAN
全框架原生支持
光纤、网线、PON 设备、专线接入硬件
代码版本绑定
网络
记忆类型
Alertmanager(告警管理器)
基于 RM 的对齐算法:RLHF 家族、DPO 家族
模型服务上线:Serving
1. 通用推理框架TorchServeTriton Inference Server(行业标准)TensorFlow ServingONNX Runtime
数据治理框架
带宽硬隔离与配额管控
Yarn
复杂搜索ES
数据字典发布
可信的数据源
AI Agent
华为云
异构算力资源
生产中,80% 的幻觉问题可以通过「RAG+Prompt 知识边界约束 + 强制溯源」解决;金融、医疗等高严谨性场景,必须加交叉校验环节,同时 Temperature 必须低于 0.3,绝对不能用高随机性参数。
Hermes Agent
工作流集成
1. LLM-as-Judge(AI 裁判)用更强模型打分:1~5 分制维度:有用性、事实性、逻辑、安全、格式优点:快、便宜、可规模化缺点:有偏见、不稳定2. 对比胜率 Pairwise ComparisonA 回答 vs B 回答 → 选出更好的用于:DPO/GRPO 训练数据模型版本迭代对比3. 基准套件(一站式跑)MMLU:学科综合能力C-Eval / GAOKAO:中文高考题GSM8K / Math:数学HumanEval / MBPP:代码MT-Bench:对话综合IFEval:指令遵循
批处理引擎Hive
Top_p:和 Temperature 协同控制生成多样性,但逻辑完全不同:通过累计概率阈值,划定 token 采样的候选池边界。关键提示:Temperature 和 Top_p 建议固定一个、只调另一个,不要同时大幅修改,避免效果失控。
Atlas 800T A2
自动扩缩容
5. 可观测性QPS、时延、错误率、吞吐量硬件利用率(GPU/NPU/CPU)日志、调用链、告警
Lead Agent(Orchestrator)Tools:Rag+MCP+Memory+ run_subagent+complete_task
6. 模型切换策略(兜底方案):切换到更大上下文窗口的模型,仅作为临时兜底,不推荐作为常规方案,因为会带来成本的指数级上升。
PaddlePaddle
Hyperparameter Tuning:Katib
Grafana(可视化)
Conversational
盲目自信:上下文腐烂,未测试,信息缺失导致幻觉
MLflow 关键技术组件
运行时状态对象
双阶段架构
Operator:TF-OperatorPyTorch-OperatorCaffe2-OperatorMPI-OperatorMXNet-Operator
元数据采集
5. 少样本反例引导:在示例中加入错误的幻觉示例,标注错误原因,告诉模型正确的回答方式,强化模型的合规认知;
CPU:4 × 鲲鹏 920NPU:8 × 昇腾 910/910B/910C算力:FP16 约 3.2 PFLOPS,INT8 约 6.4 POPS
未克隆,请勿搬运,尊重版权知识成果,谢谢
上下文工程的核心生命周期 / 全流程阶段有哪些
文件即上下文:文件+日志解决失忆和信息不足问题
定位:MLflow 最核心的基础组件,是所有 ML/LLM 实验的统一记录与管理中枢,也是实现可复现、可追溯能力的核心载体核心功能:记录实验的超参数、评估指标、标签、备注、代码 / 数据集 /git 版本;上传、存储、下载实验产物(模型文件、数据集、图表、日志等);提供 Web UI 可视化界面,支持多实验对比、筛选、排序;提供 REST API 和多语言 SDK,支持自动化记录、第三方系统集成;内置autolog()自动日志功能,可自动捕获主流框架的训练参数、指标、模型,无需手动写记录代码。
算力调度
Community
3、治理与迭代体系:内置任务失败复盘、异常根因分析、执行效果评估能力;支持基于历史执行数据,自动优化提示词、工具调用策略、循环规则,实现 Agent 的自迭代。
1. 模型优化量化:INT8/FP8/FP16/BF16剪枝、蒸馏、结构优化KV Cache 优化、PagedAttention
1. 全链路 TLS 加密:请求传输全程加密,防止数据劫持与篡改;2. 接入层审计日志:全量请求日志留存,满足溯源与合规要求;3. 证书自动化管理:证书自动续期、分发,避免证书过期导致的服务不可用。
2. 超参调优工具
CDL
EIP 、SNAT/DNAT、端口映射、就近接入
iSCSI协议:互联网小型计算机系统接口
整合总结:多 Agent 场景的 Prompt,先设计全局的协同契约、统一的输入输出 Schema,再基于契约编写每个 Agent 的 Prompt,确保所有 Agent 的行为都在全局契约的约束内;同时,每个 Agent 的 Prompt 都包含失败兜底、异常上报的规则,避免单个 Agent 的故障导致整个协同链路崩溃,完全对齐 Harness Engineering 的全生命周期管控理念。
混沌工程
Eventing
混沌工程(Chaos Engineering)是一种通过主动注入故障识别并修复系统未知隐患的工程实践。MAS-CAST混沌工程服务提供丰富的故障模式库,通过混沌实验编排攻击目标、攻击策略进行故障注入,支持添加背景流量和资源监控,同时在故障注入能力的基础上,通过体系化的流程和规范来创建故障演练,从而验证和提升系统可靠性和技术团队应急响应能力。
MindSpore
腾讯云 湖仓一体:Iceberg、Spark
容器网络类型桥接网络(Bridge Network)/主机网络(Host Network)/无网络(None Network)/自定义网络(Custom Network)
• Agent Harness:将 LLM 包装成 Agent 的代码脚手架,是运行 Agent 的基础框架。
PodGrouppodgroup是一组强关联pod的集合,主要用于批处理工作负载场景,比如Tensorflow中的一组ps和worker。它是volcano自定义资源类型。
Fairing:打包构建image
Toolkits
Reflexion
3. 生产级评估方法• 自动化测试集:构建覆盖正常、边界、异常场景的标准化测试集,每次 Prompt 迭代都自动跑全量用例,输出量化指标;• A/B 测试:线上灰度发布不同版本的 Prompt,对比核心业务指标(用户满意度、问题解决率、人工转接率);• 持续监控:线上实时监控格式合规率、异常率、Token 消耗,指标劣化自动告警;• 专家抽检:定期对线上输出做人工抽检,评估主观指标,发现潜在问题。
全量元数据记录:覆盖超参数 (params)、训练指标 (训练 / 验证 loss、准确率、显存占用、训练速度(tokens/s))、标签 (tags)、工件 (Artifacts:模型、数据集、图片、日志、代码等)、代码版本、运行环境依赖
大小无限制
4、熔断与限流:内置工具调用的熔断机制,当工具调用失败率超过阈值时,自动熔断;针对高频调用工具,内置限流策略,避免打爆下游系统。
结构化功能任务清单:结构化Schema+Todo List
概念漂移监控
CDL实时集成引擎
Kubernetes ASK
湖内分析
后处理工具反馈检索数据后预处理提取核心要点
硬件负载均衡
Volcano(底层算力调度引擎)
优炫数据库 UXDB
数据质量的持续提升减少纠错成本,降低运营风险,提升业务服务满意度
起步阶段:从小样本立刻开始(Start Small),做好开头验证,避免潜在问题,后期返工
文件存储:NAS+缓存+配额管理
内存共享(KSM/KVM Shared Memory)
核心定位:解决机器学习代码的环境一致性、可复现、可复用问题,把 ML 代码和依赖打包成标准化、可移植、可参数化运行的项目。核心功能:标准化定义 ML 项目的结构、入口、运行参数、环境依赖;提供多种环境隔离方案,保证项目在不同机器、不同环境的运行结果完全一致;支持与 Git 集成,可直接运行远程 Git 仓库中的 MLflow 项目;支持分布式运行,可提交到 YARN、Kubernetes、Spark 集群执行
数据接入与数据服务
训推一体 / 服务编排
MLflow Evaluation
监控运维层
国产新兴:OceanBaseGaussDB
Volcano GPU 虚拟化能力
数据安全访问日志审计
鲲鹏服务器
CoT
AI 芯片调度与虚拟化资源配额、隔离、超配GPU动态切分、共享
R200 SXM+128GB HBM4
Trial(尝试):为了对抗随机性而进行的多次测试(例如运行 10 次),确保结果稳定。
向图检索
Language Model
OLAP集市Doris
集中式网关
Max Length
3. 滑动窗口策略:只保留最近的 N 轮对话 / 内容片段,超出窗口的旧内容直接截断,适合临时短对话、无长程依赖的轻量场景,优点是零成本实现,缺点是会丢失早期核心信息;
一、数据处理层
3. 少样本格式示例:给 2-3 个完全符合格式要求的输入输出示例,覆盖正常、异常、空值等场景,让模型对齐输出格式;
3、熵减闭环
2. 核心主观评估指标(人工专家评估)• 业务贴合度:输出内容是否符合业务场景要求、行业规范;• 逻辑连贯性:推理过程是否清晰、无逻辑跳跃、无矛盾;• 可读性 / 用户体验:输出内容是否通顺、易懂、符合用户需求;• 合规性:是否符合行业合规要求、安全规范,无违规内容。
Volcano 通过统一调度系统,实现了两类核心工作负载的全量支持:AI / 大数据 / 高性能计算批处理负载:通过 VcJob 原生支持 Ray、TensorFlow、PyTorch、MindSpore、Spark、Flink、MPI 等主流框架,提供批处理场景专属的增强调度能力;Kubernetes 原生工作负载:可直接调度 Deployment、StatefulSet、原生 Job、DaemonSet 等所有 K8s 内置工作负载,完全兼容原生调度语义
Out Response
核心定位:中心化的模型仓库与生命周期管控平台,是 MLflow 实现生产级模型管理的核心组件,解决模型版本混乱、上线无管控的问题。核心功能:1. 中心化模型仓库,统一存储、管理所有框架的模型,支持模型的注册、检索、分类;2. 自动化模型版本管理,每次注册相同名称的模型,自动生成递增的版本号,支持版本对比、回滚、导出;3. 模型生命周期阶段管理,定义了 4 个标准化阶段,规范模型的全流程流转:None:初始状态,刚注册的模型,未进入测试流程;Staging:预上线阶段,用于测试、验证、灰度放量;Production:生产阶段,正式上线服务流量,仅允许通过审批的版本进入该阶段;Archived:归档阶段,下线的旧版本,归档后不再用于生产,仅留存用于溯源;4. 全链路模型血缘追踪,可追溯模型对应的实验、训练代码、数据集、参数指标;内置 Web UI 管理界面、审批流、变更通知、操作审计,支持团队协作。
网路虚拟化关键技术
Agent设计模式
多模态内容检索
长期记忆
mission-control:多 Agent 管理面板,支持小团队多 Agent 的统一管控与监控。全链路可观测:完整的执行 Trace 日志、审计记录,支持全流程回放、调试、问题排查。
多模态处理:单独处理图片、视频文本+多模态序列混合统一处理
3. 分步推理 + 自我校验:用 CoT 让模型先拆解问题,再检索对应知识,再生成结论,最后自我校验
Evaluation
Prometheus Server
处理任务多样性和通用基准测试多轮交互交互场景至关重要•多Agent系统的效率如何度量。
数据条带化(Striping)
协作
星环科技 TDH
MCPModel Context Protocol
高质量方法:结构化Schema
Istiod管理面、Linkerd Control Plane、Consul Connect• 服务发现;• 配置下发;• 证书管理;• 可观测性集成
AG-UI(Agent to UI)
1. 生命周期管控结合:Harness 定义规则,Context 落地执行Harness 层定义了 Agent 的角色权责、行为边界、安全规则、生命周期流程,而 Context Engineering 则把这些规则,转化为每一次模型推理的上下文内容:• Harness 层定义了 Agent 的角色与权限,Context Engineering 则在上下文中固定注入角色定义、权限边界、合规规则,同时在上下文路由时,严格遵循 Harness 的权限管控,只给 Agent 加载权限范围内的上下文;• Harness 层定义了 Agent 的任务执行流程,Context Engineering 则基于任务进度,动态加载对应步骤所需的上下文,实现 Harness 定义的分步执行逻辑;• Harness 层定义了 Agent 的失败重试、兜底策略,Context Engineering 则在重试时,补充对应的错误上下文、优化检索策略,帮助 Agent 完成重试。
7 种SFT(有监督微调 Supervised Fine-Tuning)核心微调方法
推理平台
系统级profiling
训练采集器模型:分类模型处理压缩
1. 按需检索策略(生产级首选):不把全量内容塞入上下文,而是通过 RAG 把全量内容向量化存储,用户提问时仅检索最相关的 Top N 个内容片段放入上下文,从根源解决窗口溢出问题;
Central Dashboard
全格式无损解析:文档类:原生支持带复杂排版的 PDF(扫描件 + 可编辑)、Word、Excel、PPT、Markdown、HTML,表格解析准确率达 92%(比传统工具高 35%),可保留单元格合并、公式、图表标题等语义信息多模态类:内置 OCR 引擎支持手写体识别、印章识别、流程图解析;支持音频 / 视频自动转文字并对齐时间戳;支持 CAD 图纸、医学影像等专业格式解析结构化类:直接对接 MySQL、PostgreSQL、Oracle、MongoDB 等 20 + 种企业数据库,支持增量同步和 CDC 实时更新办公协作类:原生集成飞书、钉钉、企业微信、Slack、Notion、Confluence 等 15 + 种办公平台,支持实时同步聊天记录、会议纪要、文档变更
Hybird Rag混合检索Rag
容器引擎/编排工具/配置管理Docker/K8S/Nacos...
Prompt压缩
核心职责:解决 LLM 原生的上下文窗口限制、失忆问题、上下文腐烂问题,实现 Agent 的跨会话、长周期、结构化记忆。
AIBrix云原生编排平台
SDN:OpenFlow协议
大任务拆分独立的子任务,无依赖无传递中间结果
• 挑战3:Agent角色自动生成与优化
模型构建:Fairing
高可靠(HR):聚焦数据不丢失、不损坏、一致性的能力,核心目标是保障数据安全与完整性,通常用数据持久性(如 11 个 9)衡量,核心是数据冗余、备份与一致性保障。
通用文本类型:PDF、Word、CSV、Markdown、Html、txt...
Metadata
5. 缓存优化KV Cache 复用、Cache 预分配多层缓存(GPU / 内存 / 磁盘)
检索过程优化:Embedding模型优化混合检索与加权重排多查询扩展
容器网络接口CNI
血缘关系
备份与容灾
Reduce Scatter(归约分发)
Temperature
• 角色定义的精准生成• 动态优化能力• 多目标权衡
Serverless NPU
KubeFlow(AI 训练全生命周期平台)
华为云 FusionInsight:自研湖仓引擎
单智能体串行:上下文窗口限制,信息有限
RAG(Retrieval Adanced Generation)
MLflow 跟踪实验
流处理引擎Flink
InfiniBand(IB)
用户交互
闭环自进化学习系统(核心差异化竞争力)
队列是Volcano的核心概念之一,用于支持多租户场景下的资源分配与任务调度。通过队列,用户可以实现多租资源分配、任务优先级控制、资源抢占与回收等功能,显著提升集群的资源利用率和任务调度效率。
前级Agent产生的幻觉被后续Agent逐级处理,从而产生幻觉放大的问题。
2. Adapter Tuning 适配器微调生活案例:给学生戴一个 “作文专用小耳机”• 学生本身完全不动,脑子、知识都不变。• 耳朵里塞一个小适配器,只教它怎么写作文。• 写别的科目时,摘掉耳机;写作文戴上。• 对应微调:冻结大模型,只训练插入的小网络,不影响原能力,多任务可切换,但推理稍微慢一点。
Factor 1:Natural Language to Tool Calls #自然语言到工具调用
硬件级精准计量
5. 模型评估工具
气球内存(Ballooning) 动态内存调度方案
核心职责:Agent 所有外部能力的标准化封装、注册、调度、执行与回收,是 Agent 突破模型边界的核心载体。
管理中心
Agent之间隔离:主Agent做Planing和任务拆解主与子Agent隔离,子Agent之间上下文隔离主Agent避免海量细节导致灾难性遗忘
• 系统稳定性与可扩展性• 协作式探索与任务分配• 动态优化与反馈机制
实时数据湖
模型效果监控
Kubeflow 部署推理
上线文窗口限制拆解成离散会话,新会话失忆,Session记忆高墙,遗失工作状态和细节
辅助当前决策
AI分析
2. DPO(Direct Preference Optimization)直接用偏好数据训练,不需要 RM!把偏好优化变成分类任务:p(好回答) > p(坏回答)
• 通信协议的通用性• 通信性能优化• 安全性与可靠性
Prompt:角色职责限制
数据清洗
5. 数据存储层:业务的核心底座核心目标:是高可靠的核心阵地,同时保障存储服务的持续可用,实现数据 “不丢、不错、可访问”。
5. 知识边界原则:明确告知模型可用的知识范围、禁止使用的知识
上下文拼接策略优化分块摘要拼接动态窗口拼接
网络拓扑感知调度
固定维度打分:有用性事实准确性逻辑性流畅度安全性格式合规性偏好程度(更喜欢 A 还是 B)常用方式:成对比较(优于打分)盲测多人标注 + Fleiss Kappa 一致性校验
存储架构分类
算子 / 模型层 profiling
全环境适配
MLFlow
7. AdaLoRA 自适应 LoRA生活案例:给学生配一副 “智能自动调焦眼镜”• 普通 LoRA 眼镜度数固定。• AdaLoRA:看重点内容时度数加深,看不重要内容度数变浅,自动分配精力。• 同样一副眼镜,** smarter、效果更好 **。• 对应微调:不同层自适应分配秩大小,同样参数量,效果比普通 LoRA 更强。
Serving:• TFServing• KFServing• Seldon
第三组:基础设施(System Environment)下发指令并行运行测试,收集记录并汇总
模型生命周期阶段管理
多机集群网络:200G/400G RoCEv2 + RDMA + 无收敛叶脊
数据加速
Nsight Systems + Nsight Compute + DCGM Profiler
大模型
任务执行多次独立运行,聚合多轮运行结果,投票机制提升置信度 + 鲁棒性
容器池
Agent深度推理强化学习+记忆等多种技术能力协同思考与规划的过程。
资源调度与编排
规则分割:字数切分Token分割滑动窗口切分
分布式缓存(Redis/Tair):混合持久化(RDB+AOF),数据定时备份,跨实例数据同步,防止缓存数据丢失导致的数据库压力过载消息队列(Kafka/RocketMQ):消息同步刷盘持久化,多副本冗余,消息重试与死信队列,事务消息保障分布式一致性,防止消息丢失分布式协调组件(etcd/ZooKeeper):数据持久化,定时快照备份,元数据多副本同步,保障配置、服务发现信息的一致性
昇腾 Profiling:全栈性能分析工具
LlamaIndex 全解析:2026 年最主流的 RAG 开发框架
1. 任务管控模块
调度与编排:KubernetesVolcano / YARN / Slurm任务队列、优先级调度、弹性训练
云监控服务
规则过滤
单机内网络:NVLink / NVSwitch(必须!)
动态选择策略(Agent Skills):固定工具集+工具检索工具选择:按需加载,以任务为核心,精准能力治理
Adaptive Rag自适应
CI/CD 平台、部署工具Jenkins、GitLab CI
Overlay 网络:Flannel/Calico/Weave Net(跨云、加密)/CiliumUnderlay网络:IPvlan/Macvlan/SR-IOV
模型部署层
6. 安全护栏原则:明确禁止项、合规要求、兜底策略
2. 安全合规管控结合:Harness 定义护栏,Context 做双层防护Harness 层定义了 Agent 的安全护栏、合规要求,Context Engineering 则实现了「前置约束 + 后置校验」的双层防护,是 Harness 安全能力的核心落地手段:• 前置约束:Context Engineering 在注入模型的上下文中,固定注入 Harness 定义的合规规则、禁止项、知识边界,从推理前就约束模型的行为;• 后置校验:Context Engineering 把模型生成的内容,和注入的上下文、Harness 的合规规则做交叉校验,拦截无依据、不合规的内容,实现 Harness 的安全兜底;• 审计溯源:Context Engineering 为所有上下文绑定溯源 ID,全链路记录上下文的使用情况,为 Harness 层的合规审计提供完整的 Trace 日志。
优先选 Agent
Graph Rag知识图谱Rag
• 挑战7:多Agent关系拓扑自动生成与优化
Tools for Serving:• KFServing• Seldon Core Serving• TensorFlow Serving(TFJob)• NVIDIA Triton Inference Server• TensorFlow Batch Prediction
数据接入
多平台统一消息网关
6. GRPO(Group Relative Policy Optimization,分组相对策略优化)Deepseek新一代大模型偏好对齐算法,属于 RLHF 简化版。核心是去掉 Critic / 价值网络、用组内相对奖励做 PPO,训练更稳、显存更低、适合长文本 / 推理任务。GRPO:PPO 简化版 → 保留策略梯度优势,但砍掉 Critic→ 用 同 Prompt 多输出分组(Group) → 组内算相对优势 → 更稳更快
上下文管理三类信息
自助分析
大屏展示
• Eval Harness:负责发起、并行测试和汇总分数的 “考场系统”。
Frequency Penalty
意图感知与智能路由支持 6 种以上意图分类:事实查询、总结查询、分析查询、计算查询、多文档对比、操作指令动态路由到最合适的索引和检索策略:事实查询 → 关键词索引 + 向量索引总结查询 → 树状索引分析查询 → GraphRAG 索引计算查询 → SQL 索引
解决无法提前拆分任务时的并行提效问题。中心 Orchestrator 在任务执行过程中动态拆解子任务给多个 worker 并行完成,最后汇总结果。、子任务非提前定义,而是运行中动态规划拆分。
原则三:根据任务复杂度匹配投入力度
7. 多角色交叉校验:用多个 Agent 交叉校验,比如一个 Agent 生成答案,另一个 Agent 专门校验答案的事实准确性、是否有幻觉,发现问题直接打回重写。
硬编码启发式:滑动窗口设定规则
1. 事实性 FactualityFactScore、FActScore、FEVER判断内容是否真实、不编造、可验证。关键:知识问答、百科、咨询类必测。2. 有用性 / 相关性 UsefulnessBERTScore、MoverScore语义相似度,比 BLEU 更贴近人类。3. 安全性 Safety有害性、偏见、歧视、违法风险常用:RealToxicityPrompts、BOLD、HateCheck4. 推理能力 ReasoningGSM8K(数学)、MMLU(学科)、BBH、COT 评测看逻辑、多步推理、数学计算。5. 指令遵循 Instruction FollowingIFEval、MT-Bench、AlpacaEval看是否按格式、按要求、按步骤回答。6. 长文本能力长文理解、长上下文一致性、信息检索常用:LongBench、ScrollBench
算子 / 内核级profiling
Multimodel Rag多模态Rag
1. 全局负载均衡(GSLB):跨地域、跨可用区的全局流量调度,结合秒级健康检查,自动将流量从故障区域切走,实现跨区域容灾;2. 4 层 / 7 层分离负载均衡:4 层(LVS/DPVS)基于 DPU/DPDK 硬件加速,实现高性能转发,集群主备 / 多活部署;7 层(Ingress/NGINX)实现路径、请求头精细化路由,支持灰度 / 金丝雀发布,缩小发布故障影响范围;3. 全链路流量治理:分布式限流(令牌桶 / 漏桶算法)、熔断降级、请求重试与超时控制,防止突发流量打垮后端服务,避免级联雪崩;4. 故障注入与流量镜像:通过混沌测试主动验证调度能力,提前发现可用性隐患。
优化方法
技术原理
• 记忆存储与检索• 记忆的动态增长与多样性• 安全性与隐私保护
作用:模型版本、元数据、Artifact 统一管理,打通实验到生产的 “最后一公里”Kubeflow。核心能力: • 模型版本化、 lineage 追踪Kubeflow。 • 元数据管理(性能指标、数据集、超参、环境)Kubeflow。 • 与 KServe、Pipelines 集成:一键从 Registry 部署Kubeflow。
2. 强制事实溯源:要求模型输出的每个结论,都必须标注对应的知识来源
核心原理:强制模型在每一步推理中都必须遵循预定义的结构化思维模板,而非自由发挥,将 ReAct 范式做了标准化、工程化落地;核心能力:维护任务状态机、协调工具调用、管理记忆读写、异常自动重试与兜底,保证复杂多步任务的执行稳定性。
队列资源管理
6. 高可用&容错健康检查、自动重启故障隔离、滚动更新多副本、跨节点部署
工具Tools
成本与权限
ReAct 模式
业务对象识别
5. 资源调度模块
数据湖B
5. 训练配置与超参设定优化器:AdamW、 Lion学习率:warmup、衰减策略批次:batch size、梯度累积精度:FP16/BF16/FP8 混合精度正则:dropout、权重衰减并行策略、checkpoint 保存策略
Fuction Calling
PaaS(大数据)
6. 异常重试机制:格式校验失败时,自动给模型返回错误提示,让模型重新输出符合要求的内容,最多重试 2-3 次,避免无限循环。
数据面
4.分布式推理张量并行 TP流水线并行 PP多机推理协同
统一资源调度
容灾备份
数据飘逸监控
标准化模型打包格式
Queuequeue是容纳一组podgroup的队列,也是该组podgroup获取集群资源的划分依据
长上下文场景,LLM注意力衰减,如何优化
K8S
数据服务
BI
企业级存储管理分布式索引:支持将大索引分片存储在多个节点上,支持水平扩展冷热数据分离:将高频访问的热数据存储在高性能向量库(如 Milvus),低频访问的冷数据存储在低成本对象存储,存储成本降低 60%多租户隔离:支持逻辑隔离和物理隔离两种模式,确保不同租户的数据完全隔离备份与恢复:支持自动备份和一键恢复,RPO<1 小时,RTO<4 小时
资源分配低效
• 挑战2:Agent推理资源竞争与高效调度
5. 分布式推理编排(大规模引擎)
金仓数据仓库(KingbaseDW)
作业、实例运维
Retrieval
数仓资源池
生成策略优化精调、指令微调Answer verification
数据务组织、流程、政策、平台与工具
VolcanoJob(VcJob)增强型批量作业PodGroup容错与自愈作业流编排
高效的数据共享
增强型交换机网关
NVME
语义摘要
推理成本管控:内置 Token 消耗的统计、预算管控、限流策略;支持模型的智能路由(简单任务用小模型,复杂任务用大模型),在保证效果的前提下,最大化降低推理成本。
大规模训练:TFJob
网络互通连接:VPN 网关、专线、对等连接
3. IPO / KTO / SLiC / ORPO 等新一代对齐方法IPO(Iterative Preference Optimization)更稳定,抑制模式崩溃KTO(Kalman Filtering-based...):支持单点偏好,不一定非要成对ORPO(Odds Ratio Preference Optimization):把 SFT + DPO 合并一步训完,SFT + 对齐一步到位SLiC、SPIN:自迭代蒸馏类偏好对齐
GB200 Grace-Blackwell384GB HBM3e(2×B200)
专业词向量数据库:ChromaFaissQdrant
二、LLM 大模型核心评估(现在主流)
监控:Prometheus
AgentTestOps Agent评估工程
模型开发层
以上下文为中心进行拆分
1. LLM 网关与智能路由(流量大脑)
机器学习
Basic Reflection
Prompt分类:系统提示词和动态提示词
Tracing链路跟踪
1. Prompt 层面核心优化手段• 关键信息首尾前置:把核心任务要求、输出格式、关键约束、核心问题,放在 Prompt 的最开头和最结尾,避免被长文本淹没,模型对首尾内容的敏感度最高;• 强制分步检索:不要让模型一次性读完长文档,先让模型拆解问题,列出需要的关键信息点,再让模型逐段检索文档提取对应信息,最后汇总回答,比如 “第一步:列出回答问题需要的 3 个核心信息点;第二步:从文档中找到每个信息点的原文内容;第三步:基于提取的内容汇总回答”;• 长文本分块摘要:先让模型把长文档按章节分块,生成每一块的核心摘要,标注关键信息位置,再基于摘要回答问题,需要详细信息时再召回对应原文块;• 注意力引导:在 Prompt 中明确告诉模型 “必须基于文档中的所有相关内容回答,重点关注文档中关于 XX 的章节,不要忽略中间内容”,强制模型关注长文本中间部分;• 任务拆解分步执行:不要让模型在长上下文里同时完成多个任务,拆分为「信息提取→分析→生成报告」等多个单任务,分步执行。
Scatter(分发)
原生支撑事件驱动的 Serverless 开发模式
全自动化评估体系(LlamaIndex Evals)原生支持 RAG Triad 评估框架,从三个核心维度自动评估 RAG 效果:上下文相关性:检索到的内容是否与用户问题相关答案忠实度:生成的答案是否完全基于检索内容,无幻觉答案有用性:答案是否解决了用户的问题支持批量评估和实时评估生成详细的评估报告,指出问题所在和改进方向支持自定义评估指标和评估模型
4. 模型优化工具
Manager
模型签名与校验
• Task(题目):单道题目具体的测试用例,包含输入和成功判定标准。
高可用高可靠(HA和HR)
RAG 技术全景图(设计模式)
架构设计核心要点Checkpoint 断点续传机制:每一步执行完成后,自动将当前状态、上下文、中间结果持久化到状态存储,支持崩溃后 100% 还原执行现场,断点重启,避免长任务从头执行。循环防护机制:内置最大执行轮次、Token 预算管控、超时控制、死循环检测(重复执行相同操作)、上下文腐烂检测,触发阈值后自动熔断或降级。流式执行与进度上报:支持长任务的流式进度输出,实时上报执行状态、当前步骤、剩余预算,解决长任务 “黑盒运行” 的用户体验问题。异常容错机制:每一步执行都内置异常捕获,支持按异常类型配置重试策略、回滚策略、降级策略、人工介入策略,而非直接终止任务。
Vector Store-backed Memory
海光信息
KubeFlow流程图
可视化 UI
一、偏好数据(Preference Data)构建方法人类标注偏好(Human Preference)AI 自动标注(LLM-as-Judge)基于规则 / 关键词的弱监督偏好在线用户行为偏好(Implicit Feedback)
存储格式:Parquet、ORC、Hudi
集群管理
编排器 - 工作者 Orchestrator-Workers
Async异步执行
ReAct/CoT
多模态内容识别:大模型多模态功能VL专业大模型MonkeyOCR、DS-OCR
Top_p
Chat Message
裁剪
Gather(收集)
检索方法:向量检索关键词检索(BM25)混合检索
AI体系
网络设备
上下文工程与 Harness Engineering 如何结合落地
Flink
存储虚拟化
模型性能监控
模型网关:统一的模型调用入口,支持多模型厂商、多模型版本的兼容,实现模型的动态切换、故障转移、流量分发;内置 Prompt 的标准化、防篡改、敏感信息过滤。
• 如何高效表示多样化领域知识• 如何提升垂域任务规划准确性• 如何增强推理过程的可解释性
GraphRAG 2.0 企业级增强:自动实体提取:支持中文实体和关系识别,准确率达 85% 以上社区检测:使用 Leiden 算法自动将知识图谱划分为主题社区,提升多跳推理效率动态更新:支持增量更新知识图谱,无需全量重建可视化:内置图谱可视化工具,可直观查看实体和关系
Stop Sequences
智能体两种崩溃模式
一致的数据标准
三、核心设计原则
IaaS(云原生)
混合架构模式(Hybrid Architecture Pattern)
机房高可用:多可用区(AZ)部署,每个 AZ 具备独立的电力、制冷、网络,AZ 之间低延迟互联,单 AZ 故障不影响全局;双路市电 + UPS 不间断电源 + 柴油发电机备份,精密空调 N+1 冗余,避免机房级故障。网络高可用:叶脊(Spine-Leaf)无阻塞网络架构,设备双上联、链路聚合(LACP),BGP 路由冗余,避免网络单点故障;RDMA 高速网络适配 AI / 大数据场景,保障低延迟通信。服务器高可用:服务器双电源、双网卡、RAID 卡冗余,避免硬件单点故障;虚拟化层 HA 机制,宿主机故障自动迁移虚拟机,热迁移实现无感知运维。异构算力高可用:GPU/NPU 集群化管理,故障节点自动隔离,算力弹性调度,保障 AI 训推业务的稳定运行。
Feedback
Factor 6: Launch/Pause/Resume with Simple APIs#原则6:使用简单的API启动/暂停/恢复
All Reduce (全归约)
大模型评估方法体系:传统指标 → 大模型专用指标 → 对齐类评估 → 自动化评估 → 人工评估
容器存储容器存储接口(CSI)动态存储供应声明式API与控制循环
压缩
多业务争抢干扰
一、背景与核心目标场景痛点:单 Kubernetes 集群无法满足大规模 AI 训练、推理任务的资源需求,企业多集群管理场景下,缺乏针对 AI 负载的跨集群统一调度、全局资源管控能力。核心定位:Volcano Global 是 Volcano 社区孵化的专用子项目,基于 Karmada 构建,为多集群 AI 任务提供统一调度平台,实现跨集群的 AI 工作负载分发、资源管理、优先级与公平调度。
核心特性:支持规则的动态更新、灰度发布;支持违规行为的分级处置(告警、拦截、熔断、人工介入);支持等保、GDPR、行业合规要求的定制化规则。
全链路Trace与可观测系统(审计、监控、调试)
闭环实现:Agent 生成内容 / 执行操作后,结果先提交到 Harness,而非直接输出。Harness 调用独立的验证模块(可基于规则、小模型、测试用例),对结果进行多维度校验:正确性校验、格式校验、合规校验、安全校验。校验不通过:打回 Agent,明确指出错误点,要求重新生成 / 修正,同时记录错误次数,触发阈值后熔断。校验通过:结果放行,进入下一步执行或最终交付。
指令确定目标
训练平台
防范策略:提示层防御 (Prompt-Level):• 分隔符 (Delimiters)、• XML 标签加固、• 防御性指令架构层防御 (Architectural):• 独立审核模型、• 沙盒隔离、• 输出清洗流程层防御 (Process):• 最小特权原则、• 人机协作
静态上下文:出厂设置(身份角色、能力、行为准则)
资源调度
昇腾NPU
Superrior
核心冲突
基础设施平台
PPO:老前辈,效果强但难训、容易崩DPO:现在最常用,简单、稳、不用折腾 RM 和 RLGRPO:想比 DPO 更强、尤其做数学 / 代码 / 长文本KTO:数据不好凑不成对,单点标注就行ORPO:不想分 SFT 和对齐两步,想一步训完
Envoy:Istio数据面/Linkerd 默认、HAProxy、Nginx• 流量代理:◦ 负载均衡算法;◦ 路由匹配• 安全通信:◦ 自动加密;◦ 身份认证;• 故障恢复:◦ 熔断;◦ 重试;◦ 超时控制• 数据收集:◦ 指标收集;◦ 日志收集;◦ 调用链追踪
选择
4. 否定性指令强化:明确禁止模型编造内容、猜测不确定的信息
标准化项目规范
容器引擎(Container)Docker、Containerd、CRI-O、Podman、runc...
Serverless(FaaS 函数计算、Serverless 容器服务)
统一数据服务实现规范
全链路血缘追溯
信息熵度量
Factor 5: Unify Execution State and Business State #统一执行状态和业务状态
2. 明确 JSON Schema 定义:在 Prompt 中给出完整的 JSON 结构定义,包括每个字段的名称、类型、含义、取值范围,避免模型随意增减字段;
容器隔离机制Namespace(环境隔离)+Cgroups(资源限制)
集群 / 分布式 profiling
数据湖A
流水线架构模式(Pipeline-Based Architecture Pattern)
短期记忆:上线文窗口滑动窗口/对话摘要受限于LLM容量上限
Pushgateway
H200 SXM+141GB HBMe3
监督微调 SFT(学任务 / 指令)
文档解析
结构化隔离 Agent 内部状态Schema 设计预先定义信息边界和访问权限“隔离” 定义信息边界,“选择” 在边界内活动。
Conversation Buffer(Context Window)
Output parsers
Agent 构建12条原则Factor
3. 输入输出格式标准化:所有 Agent 的输入输出必须遵循统一的 Schema、通信协议,在 Prompt 中强制规定,确保上下游 Agent 的内容可以无缝对接,不会出现语义歧义、格式不兼容;
Batching批处理输入数据
HEX(Hermes Execution) 结构化推理引擎(核心执行底座)
幻觉增强事实校验溯源标注
弹性伸缩
LangGraph
ANP智能体网络协议
块存储:LUN+Ceph+分层存储
容器网络
提示链 (Prompt Chaining)
2. MLflow Deployments核心定位:统一的模型部署与推理网关组件,抹平不同部署环境、不同模型格式的差异,实现模型的统一部署、统一管理、统一调用。核心能力:支持一键部署模型到本地、Docker、K8s、AWS SageMaker、Azure ML、阿里云 PAI 等环境;提供统一的推理 API 网关,支持不同框架、不同部署环境的模型,通过统一接口调用;支持实时推理、批量推理、流式推理多种模式,内置流量拆分、A/B 测试、蓝绿部署、限流熔断能力;新增 LLM 部署网关能力,支持代理 OpenAI、Anthropic、通义千问等大模型 API,统一管理 API Key、限流、日志、成本监控,同时支持开源 LLM 的本地部署。
飞腾服务器
原则四:工具设计与选择至关重要
ARM(鲲鹏、泰山等)
云块存储
流量拆分
4. 可观测与治理模块
Factor 12: Make Your Agent a Stateless Reducer # 原则12:无状态
数据质量目标
知识
多智能体并行:决策冲突和灾难性合并
3. 高密度 LoRA 管理(多租户引擎)
Volcano 的统一调度能力
扩展阶段:LLM 裁判的规模化(Auto Eval),五维评分量规实现规模化验证
本地存储:对象存储、文件存储、块存储
VolcanoJobVolcano Job,简称vcjob,是Volcano自定义的Job资源类型。区别于Kubernetes Job,vcjob提供了更多高级功能,如可指定调度器、支持最小运行pod数、 支持task、支持生命周期管理、支持指定队列、支持优先级调度等。Volcano Job更加适用于机器学习、大数据、科学计算等高性能计算场景。
上线文管理四大核心操作
四、自动化评估方法(工业界最常用)
评估
硬件监控
Hyper-V、Xen 等
批量作业全生命周期管理
Example Selector
内核旁路(Kernel Bypass)
Reason without observation(REWOO)
阿里云:PAI-LangStudio
镜像与环境管理:PyTorch、CUDA、CANN、依赖库
评估指标:准确率召回率命中率(Top-p)
• 挑战9:多Agent联合学习与经验积累
Multi-Agent
分布式训练支持
Composition:任务组合
二、结构化索引与存储管理:企业知识的 \"逻辑架构师\":LlamaIndex 在此层解决的是纯向量检索的上下文碎片化和语义丢失问题,将企业的非结构化数据转化为有逻辑、可推理的知识体系。
LangChain Universe
华为云:AgentArts(Versatile)
攻击&防范
搜索算法:相似度评估 Similarity Measures(FLAT)局部敏感哈希(LSH)Local Sensitive Hashing(LSH)倒排索引文件(IVF)Invert Index File(IVF)乘积量化 Product Quantization(PQ)分层可导航小世界(HNSW)
腾讯云
6. 统一 AI 运行时(标准化底座)
通用工具:PyPDFLlamaIndexLangChain
Factor 4: Tools Are Just Structured Outputs # 工具必须结构化输出
AI Agent解决方案架构师
火山云ByteHouse
KMS
Hypervisor(虚拟机监控器 / VMM)
RLHF/DPO/GRPO(对齐人类偏好)
Agent和Workflow核心维度对比
内存虚拟化技术
3.模型编译与加速图编译、算子融合量化引擎(INT8/FP8)硬件专属优化(CUDA/CANN)
数据源认证
推理关键技术(框架核心)
多级队列资源借用 / 回收 / 抢占多租户强隔离
物理机池
智算资源池
核心定义:HBRM 是一套以硬件原生能力为基础,对计算系统全链路带宽资源进行精细化监控、隔离、调度、管控的技术体系,覆盖显存 / 内存带宽、片间互联带宽、PCIe/CXL 总线带宽、高速网络带宽等核心资源。
三、核心架构与组件Volcano Global 基于 Karmada 的多集群资源分发框架构建,核心包含两个组件,调度流程如下:Volcano Webhook:监听 ResourceBinding 资源的创建事件,将该资源设置为暂停状态,拦截 Karmada 的默认分发流程,为调度判断提供前置控制。Volcano Controller:核心调度执行组件,监听处于暂停状态的 ResourceBinding,基于作业所属队列的优先级、作业自身的优先级,执行优先级调度、公平调度逻辑,同时运行资源准入校验;准入通过后,解除 ResourceBinding 的暂停状态,交由 Karmada 完成后续的跨集群资源分发。(Karmada 负责提供多集群的基础资源管理、应用分发框架、跨集群调度底座;)
Map-reduce
Transcript(轨迹):完整的思考与调用日志,作为评估的过程证据。
网络安全:安全组、云防火墙
腾讯云TKE:VPC-CNI
5. 上下文注入与执行:将组装好的上下文注入模型 / Agent,完成推理执行,同时全链路记录上下文的使用情况、效果反馈;
工业级高级检索策略Small-to-Big 检索:先检索 50 字符的句子级小块保证精准度,再返回该句子所在的 2000 字符父块提供上下文,准确率提升 22%句子窗口检索:检索到匹配句子后,自动返回前后各 3 个句子的上下文,解决语义断裂问题查询重写:自动将模糊、不完整的用户问题重写为清晰、完整的查询语句,召回率提升 18%递归检索:先检索文档摘要,再检索相关章节,最后检索具体内容,适合长文档和多文档场景
X86服务器
Agent 平台
监控、日志、告警:(算力利用率、loss、学习率、吞吐量)
3. 上下文存储与管理:通过向量数据库、关系型数据库、KV 存储、图数据库,实现上下文的持久化、版本控制、权限管控、生命周期管理;
2、自我验证闭环
CCI
Factor 3: Own Your Context Window #掌控号你的上线文窗口
挑战
兜底阶段:人类评估捕捉盲区(Human Eval),人类介入捕捉自动化裁判的 “信源偏见” 和 “幻觉”;
解决的核心痛点:Agent 的输出存在幻觉、错误、不符合规范的内容,直接流出到用户或生产系统。
Ranger
通信
Memory:Context Window+外部文件主智能体在 Think plan 后执行 Save Plan 动作,将宏观战略写入外部记忆存储
多智能体架构模式( Multi-Agent Architecture Pattern)
1. MLflow Pipelines(MLflow Recipes)核心定位:端到端 ML 流水线编排组件,提供预定义的标准化流水线模板,解决 ML 流程重复开发、无法自动化的问题,是生产级落地的核心工具。核心能力:预定义了分类、回归、时序预测、MLOps 部署、LLM RAG 等场景的标准化模板,开箱即用;支持步骤级增量执行、结果缓存,重复运行时仅执行变更的步骤,大幅提升迭代效率;内置最佳实践,比如数据校验、特征漂移检测、模型评估、偏差分析,无需从零开发;可无缝集成到 CI/CD 系统,实现流水线的自动化调度、触发、告警。
4/7 层转发、会话保持、健康检查、集群负载调度
10
传统三层网络架构
Core LCEL(LangChain Expression Language
1. 角色锚定原则:开头明确给模型定义清晰、具体的角色与权责
仓库Repository
作用:生产级模型部署与推理引擎,标准化、多框架、高可用、自动扩缩。核心能力: • 支持 TensorFlow、PyTorch、SKLearn、XGBoost、ONNX 等。 • 服务器 less 推理(idle 缩 0)。 • 蓝绿 / 金丝雀发布、流量切分。 • 自动扩缩容、监控、日志、请求追踪。 • REST/gRPC 接口、批量推理、Transformer/Explainer 扩展。
写入
1. 多线 BGP 接入:对接三大运营商及中小运营商线路,解决跨运营商网络互通瓶颈,避免单运营商线路故障导致的接入中断;2. Anycast 任播技术:同一 IP 在多地域 / 多可用区发布,用户请求就近接入,单地域接入故障时自动切换到健康节点;3. 接入集群多活部署:LVS/NGINX/ 高防集群采用无状态化多活架构,单节点故障自动剔除,会话保持与转发能力无感知切换;4. 智能 DNS 调度:基于地理位置、运营商、节点健康状态的解析调度,故障节点自动摘除解析,配合 DNSSEC 防止 DNS 劫持;5. DDoS/CC 防护体系:云清洗中心、流量压制、源站防护,抵御大流量攻击导致的接入瘫痪。
服务网格(Service Mesh)
上下文缓存
LUN 虚拟化(逻辑单元抽象)
R100 SXM+128GB HBM4
第二组:题目与判卷(Static Definition)
7. Metadata(元数据与血缘追踪)
事件源接入
基础网络资源:VPC、弹性网卡
1. 前置强制格式约束:在 Prompt 最开头,明确告知输出格式要求,比如 “你必须严格输出标准 JSON 格式,禁止输出任何 JSON 之外的解释、说明、备注、markdown 格式,否则会导致系统解析失败”;
二、执行平面三大核心模块(Harness 的执行载体)
2. 容器化工具
2. LLM 专属自动扩缩容 (APA)(弹性心脏)
1、终止拦截闭环(Ralph Loop)
安全层
LLM
训练框架
5. KServe(模型推理服务,原 KFServing)
数据治理
模型微调:对比学习标注回归
• 挑战8:多Agent记忆共享
任务管理
数据安全等级定义
1. 知识边界强制约束:明确告知模型只能使用提供的上下文知识,禁止使用预训练知识
2. 分层摘要策略(长文档通用最优):采用 Map-Reduce 模式,先把超长内容分块,并行生成每个块的核心摘要,再把所有块摘要汇总生成全局摘要,基于全局摘要完成推理;
按需加载
评估工具:Rag ASLangSmithLLM-as-a-Judge
数据湖、数据仓库
NAS(Network Attached Storage 网络附加存储)
目标明确、步骤固定、规则可量化的标准化任务1. 合规审核、内容安全检测(Voting 模式)2. 固定步骤的数据分析、报告生成Chaining+Parallelism3. 按类型分发的客服工单、任务分配(Routing 模式)4. 单点结果的迭代优化(Optimizer 模式)5. 高风险、对鲁棒性要求极高的确定性判断任务
数据校验工具
实现了「执行 - 评估 - 优化 - 沉淀」的完整学习闭环自动技能生成:当 Agent 完成涉及 5 步以上工具调用的复杂任务后,会自动从执行经验中提取核心流程,生成符合agentskills.io开放标准的结构化技能文档,无需人工编写代码或 Prompt;技能持续优化:技能在后续使用中,会根据执行结果自动迭代、优化流程,提升执行成功率;社区生态共享:官方推出了技能市场,用户可分享、安装社区优质技能,目前已收录 200 + 开箱即用的技能。
IaaS(云计算)
全虚拟化(KVM)OS通过Hypervisor调硬件
Collect
Get Started
Collect
Get Started
Collect
Get Started
Collect
Get Started
评论
0 条评论
下一页