首页  流程图  详情



 



AI+Cloud云原生全栈技术纯享版-持续更新

2026-04-26 10:39:09   1  举报





《AI+Cloud云原生全栈技术纯享版》是一套专注于AI与云计算集成的高级技术教程。本系列教程以其全面性、深入性和即时更新性备受技术开发者们的青睐。它深究从基础云架构到高级智能分析算法的全面应用，贯穿了容器化、微服务、自动化部署、人工智能模型等核心云原生技术。

一图看懂AI

云计算

云原生

架构图总览

架构设计

模板推荐

作者其他创作

大纲/内容

阿里平头哥

...资源池

Prompt框架模型：背景、目标、风格、语气、受众、格式

H20+96GBHBM3

训练框架

数据生成获取

多智能体

训推一体

数据安全定级

1.Gang 成组调度2. 拓扑感知调度3.调度策略插件

存储访问协议

2. 指标：训练 / 验证 loss、准确率、显存占用、训练速度（tokens/s）；

数据集成

容器网络模型

训练服务

工具反馈观察结果

向量检索

推理服务管理（平台层能力）

微服务管理服务网格、Istio

项目管理、需求跟踪Jira、Trello

交互式分析HetuEngine

B200 SXM+192GBHBM3e

实时流处理

对象存储：对象级存储（OSS/COS)+多副本/ 纠删码 + 智能缓存 + 分层存储

实时加载

数据开发

Agent知识交接子Agent总结汇报给主Agent

演进

腾讯云 TCHouse-P

知识图谱数据库：Neo4j ArangoDB

监控与运维

并行化+投票 (Parallel+voting)

Citation subagent：数据应用Agent1. 避免不必要的引用；2. 引用完整的语义单元；3. 让句子碎片化最小化；4. 避免相邻的冗余引用

硬件防火墙

Agent SkillsAgent工具

数据加速：分布式存储（对象存储、分布式文件系统）DataCache、数据预加载高速读写、小文件优化

A2A（Agent to Agent）

环境沙箱

节点

Self-Discover

Agentic Rag智能体增强 RAG

Multi-Agent 评估

数据源

Factor 8: Own Your Control Flow # 原则8：掌控自己的控制流

单智能体串行：上下文窗口限制，信息有限

即时检索Agentic Search：主动机制：ReAct渐进式披露+元数据梳理优势：即时信息+高信噪比+探索能力

Navie Rag原生 Rag

目标模糊、步骤动态、需要自主决策 / 多工具协作的开放型任务：1. 多轮智能客服（主动理解意图、转接业务、解决非标准化问题）2. 自主数据分析（用户仅提目标，Agent 自主选工具 / 查数据 / 出结论）3. 复杂业务决策辅助（多信息整合、跨任务协作、动态调整策略）4. 开放域问答 + 工具调用（如联网查信息、调用计算器 / API 完成任务）5. 多角色协作任务（如智能助理、自主办公机器人）

MLflow + Kubeflow 协同架构

条件

主数据规范

subagent-1

3. 编译优化模型编译 (AOT/JIT)硬件专属编译优化

流处理引擎Flink SQL

分布式训练技术：数据并行 DP张量并行 TP流水线并行 PP3D 并行 FSDP 完全分片数据并行MoE 专家并行

长期记忆：语义记忆：是什么程序记忆：怎么做情景记忆：何时何地做

存储

AI Agent解决方案架构师

数据集成数据标准

Token / 成本监控

构建工具、依赖管理Maven/Gradle/npm/Yarn

Kubeflow 流水线触发训练

存储设备

文本结构分割：句子切分段落章节

应用性能管理

消息

模型注册到 MLflow

并行化 (Parallelization)

加速优化（推理核心性能）

Streaming流式输出

存储控制器

模型设计

统一元数据管理&统一权限管理

腾讯云 EMR + TCHouse-D

存储网络分类

隔离

缓存加速（Cache Acceleration）

Text Spliter

发布

数据质量改进

资源池

湖仓一体

半虚拟化

服务器

PyTorch

智能体两种崩溃模式

火山引擎：HiAgent+AgentKit

版本管理

Testing

批量数据接入

Factor 7: Contact Humans with Tool Calls # 原则7：人机协同

开源模型：Qwen-EmbeddingBGE

Memory

Vector Store

腾讯云：Tencent Cloud ADP

语义切分：AI21SemanticTextSplitterBert文本切分

模型训练

Atlas 800T A3

...

昇腾CCAE(Cluster Computing AI Engine)

ACP智能体通信协议

Rubin 架构（2026，即将发布）

业务库

资源与调度

Plan and Solve

全 K8s 兼容全训推框架支持在离线混部多集群调度（Global）

华为云 FusionInsight MRS 离线计算引擎

数据标准制定

基础设施层（HCS、BMS、容器、专属服务器）

Presence Penalty

流量调度分发：负载均衡

6.高可用架构健康检查、自愈限流、降级、熔断灰度、蓝绿、彩虹

总结/摘要

LLMCompiler

滑动窗口（加载最近 n 轮思考）、状态总结（加载上一步行动与观察结果）、失败复盘（加载所有失败步骤）

简单检索HBASE

镜像市场

提示词攻击：直接注入间接注入越狱提示词泄露训练数据投毒

克隆后可编辑

Tools

数据模型认证

运营运维

存储格式：Parquet、ORC

Router

原则八：并行工具调用极大提升性能

华为云GaussDB（DWS）

寒武纪服务器

AIOps/MLOps

主数据

功能列表：避免两类失败模式，提供清晰任务目标

数据安全

Hopper 架构（2022）

路由 (Routing)

接入 / 汇聚 / 核心交换机

YangtseVPC路由网络

• Grader（阅卷）：基于评分规则（Rubric）的打分逻辑脚本，实现自动化判分。

情景：行为规则（系统提示词）程序：few-shot少样本案例（动态提示策略）语义：语义识别和意图识别有效性

数据检索

计算虚拟化

灰度发布

3. Artifacts：自动存储模型 checkpoint、训练日志、配置文件、tokenizer 等，支持对接 S3/MinIO 等分布式存储（适配大模型的超大文件存储）。

数据管理

自动化测试、质量分析JUnit、PyTest、SonarQube

存储虚拟化关键技术

5.高性能网络gRPC / HTTP2RDMA 推理加速无损低时延网络

知识图谱

Chains

网络：Spine-Leaf 拓扑 + 1:1 带宽收敛比 + 无损 RDMA + ECMP 负载均衡

集群调度 / 任务管理

Agent工具技术

SSM（选择性状态空间模型Selective SSM，代表Mamba）与文件系统的黄金组合

推理 profiling

评估方法

Templates

2. 服务发布与托管一键部署推理服务多版本、灰度发布、流量切分自动扩缩容、缩0（Serverless）

路由控制：路由表

核心构成要素：角色、背景、任务、约束、示例

SAN：FC SAN（Fiber Channel Storage Area Network）和 IP SAN（IP Storage Area Network）

重排序：Top-kcross-encoder深度语义匹配/ms-marco

Jupyter Notebooks

多副本与纠删码（EC）

主数据定义

Transform Chain

多样集市

Blackwell 架构（2024）

单机内网络：NPU 高速互联HCCS 全互联（A2/A3）或灵衢总线（A5）

云原生、DevSecOps

Models I/O

入湖方案制定

B100 SXM+80GBHBM3e

LangServer

其他数据库：Postgres、RedisMilvus、Mem0

外部记忆系统

核心调度能力

在线模型：OpenAI Embedding智谱AI Embedding

模型管理：checkpoint 保存、断点续训、版本管理

数据地图

输入清晰分类，处理过程和逻辑差异明显

Sequential

分布式存储

控制面（Control Plane）kube-apiserver：认证、授权、准入控制etcd：存储集群关键状态：Pod配置、Service规则、用户权限kube-scheduler：自定义调度策略（亲和性、误点、容忍、资源配额限制）、资源状态、资源需求、动态调整分配逻辑kube-controller-manager： Deployment 控制器、 StatefulSet 控制器、 Node 控制器、Service 控制器cloud-controller-manager：对接云厂商 API、负载均衡、对象存储等控制面辅助组件：HaProxy/NGINX、kube-aggregator

规划

Dorado

1. 通用推理框架容器化、K8s 编排Serverless、Knative 弹性服务网格、流量治理

加速技术：混合精度 / FP8 训练梯度累积、ZeRO 优化算子融合、算子编译、图优化检查点断点续训

分层存储（Tiered Storage）

6. 正式训练（核心执行）前向传播：输入 → 模型 → 输出计算损失：loss反向传播：梯度计算参数更新：优化器更新权重日志与监控：loss、吞吐量、利用率、lr训练阶段：预训练 Pre-training（学语言 / 知识）监督微调 SFT（学任务 / 指令）RLHF/DPO（对齐人类偏好）

云原生大数据计算平台 + 离线数仓引擎

CPU、内存、主板、RAID 卡、HBA 卡、机柜、机架、电源模块、UPS、精密空调、散热风扇

文件

User Request

知识图谱检索：问题-实体相似度识别社区聚类检索

容器

直接交互扩展为外部可交互持久化环境

4. 模型选型与初始化基座选择：开源基座 / 自研从头训结构配置：层数、维度、头数、参数量、上下文长度权重初始化：随机初始化 / 加载已有预训练权重分布式配置：TP/PP/DP/FSDP/MoE 并行策略

可视化可观测Grafana

DevOps生命周期

Client Libraries（客户端库）

流处理引擎

阿里云MaxCompute

云函数 SCF

Language Agent Tree Search (LATS)

控制面

增量进度：一次完成一个任务目标，记录更新完成状态

多租户&队列资源管理

可视化与报告

测试

双阶段架构

LakeFormation

短期记忆实时处理

系统Prompt

Gaea华为云高性能网络节点

安全资源池

DBService

GUI-Agent

日志服务ELK

Multi-Agent拆分原则

Raid磁盘阵列

云防火墙、WAF、微分段、ACL 访问控制、流量清洗

按需索引

Lead Prompt四步思考循环：评估、分类（深度优先、广度优先、直接查询）、计划、执行

提示词追踪

长期记忆持久化

统一命名空间（Unified Namespace）

运维工具

定时加载

Monitoring

VMware VMM（ESXi/Workstation）

监控、日志、追踪Prometheus/Grafana/ELK

异构资源池

4. API 网关 & 协议HTTP/gRPC/REST API兼容 OpenAI 接口规范流式输出（Stream）支持

任务串行化接力：Workflow进行接力，状态和信息传递

TensorFlow / Keras

统一数据服务设计规范

Prompt Engineering

专题集市

实时同步

React

持计划与结构化

海光服务器

特征存储

1. 串行 workflow：步骤按顺序执行2.独立LLM调用：非单次 prompt 内完成所有步骤3. 显式信息流：上一步输出作为下一步输入

昇腾服务器

训练关键技术（框架核心）

• Suite（题库）：一组 Task 的集合，例如客服场景下的测试题集。

7.可观测体系指标监控调用日志 & 链路追踪自动告警、异常检测

Corrective Rag纠错型Rag

演进阶段：注意多智能体的涌现行为，警惕系统 “涌现行为”，评估协作模式合理性。

FC协议：FC是光纤通道（Fiber Channel）

顶级集成工具：MarkerMinerUMarkitdown

4. 调度优化动态批处理（Dynamic Batching）多请求复用、迭代级调度资源超配、QoS 保证

在线：爬虫（Scrapy）Wikipedia、Github、Bilibili、网页

弹性容器服务 EKS

数据治理体系

治理价值体现

数据质量标准

MLFlow GenAI

Workflow

Serving

文件即上下文：文件+日志解决失忆和信息不足问题

单点打磨：围绕同一个结果反复修改而非横向选优标准驱动：根据精确标注提供反馈；闭环迭代：满足标准或达成停止条件

实时宽表分析ClickHouse

脚本、作业开发

英伟达服务器

Knative框架（Serverless）

3. 硬件专属推理引擎TensorRT（NVIDIA）MindIE（昇腾）ONNX RuntimeOpenVINO（Intel）

离线数据湖

3. 环境与资源准备算力集群：GPU/NPU 服务器、无收敛叶脊网络存储：对象存储 /文件存储/存数据/ checkpoint框架环境：PyTorch / MindSpore + 分布式通信库（NCCL/HCCL）容器镜像：统一依赖、CUDA/CANN、加速库

训练服务过程

数据服务生命周期管理

虚拟 NUMA（vNUMA）

实现业务上线有数据的快速传递共享，提升业务运作效率

Outcome（结果）：最终的评估标准，是判断 Agent 表现的核心依据。

知识库选择

二层Spine-Leaf架构

数据质量

硬件环境

英伟达 DCGM + NGC + Base Command Manager + NVIDIA AI Enterprise 运维套件

Exporters（导出器）

技术元数据

Oozie

文件资源池

并行召回（向量搜索即语义检索、关键词搜索、知识图谱）、Agentic Search、重排序

数据飞轮

静态路由、动态路由、路由策略、子网路由隔离

模型评估

7. Volcano 调度集成（资源调度中枢）

主数据识别

数据治理价值

边

Multi-Agent 提示词工程八条原则

时序IoTDB

H100 PCIe+80GB HBM3

通知、备份管理

镜像Image

阿里云湖仓一体：Delta Lake、ADB

有效的数据质量监控

原则二：教会指挥官如何授权

原则五：让智能体参与自我改进

总结对话历史：提取任务概览、关键抉择

异构算力精细化调度

Hudi

Paralllelization并行执行多任务

短期记忆草稿纸（Scratpad）

腾讯云:语义感知 +VStation优先级调度 + 全局优化

CPU：4 × 鲲鹏 920（新一代）NPU：8 × Atlas 300I A5（昇腾 910B5/910C，更高能效）算力：INT8 1400+ TOPS，能效比提升 30%+网络：200GE/400GE 灵活配置

Frameworks for Training • Chainer • MPI • MXNet • PyTorch • TensorFlow

动态上下文：感知外部实时信息推理前检索Rag+即时检索Agentic Search

瞬时记忆：未加工原始信息任务结束淘汰

SCSI协议：小型计算机系统接口

Storm

全量、增量集成

Retriever

批处理引擎Spark

治理诉求

Action

User

vCPU（云厂商技术）

MLflow Projects

监控

数据版本控制

标签分类管理

部署

Workflow设计模型

函数计算 FC

数据安全访问控制

物理路由器

分离 “思考” 与 “执行”：沙箱是 “状态化环境”，隔离 “真实环境的状态”

Paln and Execute

结果生成评估指标：Bleu、幻觉率ROUGEBERTScore

数据存储

Factor 9: Compact Errors into Context Window # 原则9：将错误压缩进上下文窗口

openAI Function

数据探查/画像

云原生网络

阿里云 AnalyticDB（ADB）

分布式训练 profiling

2.低时延高吞吐调度Dynamic BatchingContinuous BatchingPagedAttention迭代级调度

Pipelines：• Python SDK• DSL compiler• Pipeline Web Server• Pipeline Service• Kubernetes Resources• Machine Learning • Metadata Service• Artifact Storage• Orchestration Controllers

多机集群网络：RDMA 网络：InfiniBand (IB)或RoCEv2（以太网 RDMA）

AI Agent架构

JAX（google）

大页内存（Huge Pages）

预训练 Pre-training（学语言 / 知识）

词向量化

SmallFS

数据质量政策

英伟达GPU

数据层

训练模型：Jupyter

多模态处理

精细化监控

关键信息筛选提取

Planning

全栈监控

Atlas 800 A5

HDFS

提升数据准备读，为业务运作提供可信的足量的数据支撑

事件总线能力

OBS

数据仓库

数据标准

Document Loader

Flume

Multi-Tenancy in Kubeflow:Kubeflow的多租户

Customized Chain

闪存阵列

网络架构

块资源池

虚拟化技术

训练阶段

挖掘建模

故障自愈与数据重建

实时数据接入

计算芯片与零件

统一调度

快照与克隆（Snapshot/Clone）

DataOps

Factor 2: Own Your Prompts #掌控好你的提示词

存储、网络优化

云DNS

IPsec VPN、物理专线、VPC Peering、跨AZ互联

MLflow Model Registry

示例Few-shot

Overlay 虚拟化、SDN、弹性网卡虚拟化、子网隔离

Agent

运维

SATA SSD/HDD

图片信息切分：图片解析+文档单独切分图片链接+文档单独切分

分布式训练支持：DP/MP/PP/FSDP/MoE

启动命令

数据开发规范

Context Engineering（范式转移：从提示工程（战术优化）到上下文设计（架构设计））

工具集选择

构建知识图谱：实体识别关系判别实体聚类

数据分片与分布式一致性

数据湖统一存储

SparkStreaming

对象资源池

数据质量管控

软件栈：HCCL + CANN ≥6.0 + RDMA 配置

第一组：动态执行（Dynamic Execution）

虚拟机池

滚动升级

挑战：成本与复杂性

版本控制、代码审查Git/GitHub/GitLab

阿里云 ACK：Terway

初始化智能体：使用相同系统提示词、工具集、控制框架

Agent Tolling

编码

原则七：引导思维过程

容灾

3. 流量与调度负载均衡、流量控制、限流熔断多实例调度、GPU/NPU 调度多区域 / 多可用区分发

请求队列管理

逻辑数据湖

subagent-2

Kafka

文档分割

华为云:Flexus+Kunpeng-V硬件加速 + 双模式调度

阿里云

公网访问 / 出口公网： IP、NAT 网关、CDN

计算

Research subagent：流程：研究规划、工具选择、研究循环（调整、决策、行动）

原则六：先宽后窄的搜索策略

MLflow Tracking

2. 推理引擎优化图优化、算子融合内存优化、连续 Batch动态 Batch、异步推理

云原生数据湖

数据面（Data Plane）Kublete：Pod生命周期管理、健康检查机制（存活探针、就绪探针）、监控Pod状态kub-proxy：负载均衡和网络规则转发：iptables、ipvsContainer Runtime：容器资源隔离机制、镜像管理、与kubelet通信CNI插件：容器网络连通（容器网络模型）CSI插件：存储对接（创建、挂载、扩容、快照等）Ingress Controller：反向代理服务器（如 Nginx）、HTTPS解密、路径重写、负载均衡、访问控制

subagent-n

核心功能

南大通用 GBase

推理前检索（RAG）：检索机制：混合检索（关键词检索+向量检索）优势：速度快+成本低+流程成熟

H800 SXM+80GB HBM3

磁带库（归档存储）

模型版本管理

操作系统

交互式分析跨湖查询HetuEngine

事件过滤

SAS SSD/HDD

影子页表（Shadow Page Tables）

构建

分布式SDI网关

CPU：4 × 鲲鹏 920NPU：8 × 昇腾 910/910C算力：FP16 6.0 PFLOPS，INT8 12.0 POPS互联：灵衢总线，双向 784GB/s，1:1 无收敛集群：单机 8 卡，多机可扩至 384 卡超节点

NoF网络：NVMe（Non-Volatile Memory express

原则一：像智能体一样思考，理解智能体逻辑

故障自愈

Pipelines

4. 分布式 KV 缓存（性能倍增器）

数据资产

Playground

Fallbacks失败回退机制

Annotation

大数据资源池

DevOps

优先选 Workflow五大模式适配

专题分析

数据元接入

故障诊断 / 自愈

IaaSCloud Infra

8.模型评估与导出:验证集评估：困惑度 PPL、loss、准确率；benchmark 评测；人工评估：流畅度、安全性、业务效果；模型格式转换、导出、上线推理；

业务元数据

硬件层 profiling

7.断点续训、容错与扩缩容异常断训后从最新 checkpoint 恢复多机故障自动替换节点弹性增减卡、重排分布式组

SAS协议：（Serial Attached SCSI）

阿里云：神龙架构硬件加速 + 双模式调度

Prometheus

Prompt进阶：思维连CoT、少样本提示（Few-shot Prompting）、负向约束....

灾备

软件栈：NCCL+NVLink/RDMA (IB/RoCE/GPUDirect RDMA)

评估器 - 优化器 Evaluator-Optimizer

DAS（Direct Attached Storage 直接连接存储）

事件路由

ICAN容器隧道网络

1. 需求与目标定义：确定模型类型：LLM、多模态、CV、ASR确定规模：基座 / 微调 / 领域小模型确定指标：loss、困惑度、准确率、业务效果

Knative 弹性伸缩

LangSmith

IaaS中间层

结构化功能任务清单：结构化Schema+Todo List

统一调度与生态兼容

Chains as Rest APIS

HyDE Rag假设性文档嵌入

网络资源池

分布式存储节点

raid 0、1、5、10

知识提供依据

单体式架构模式（ Monolithic Architecture Pattern）

盲目自信：上下文腐烂，未测试，信息缺失导致幻觉

文件系统即为外部长期记忆

网路虚拟化

硬件辅助内存虚拟化（EPT/NPT）

Agent 技术十大挑战

KVM

2. 数据准备（训练成败核心）数据采集、爬取、购买、业务数据接入数据清洗：去重、去噪、过滤低质、敏感信息清洗数据预处理：分词、token 化、格式标准化、分桶数据构建：预训练语料 / SFT 指令数据 / 偏好数据（RLHF）数据集划分：训练集、验证集、测试集

全栈智能可观测平台

定义运行环境

TKE Serverless

Conversation Summary Memory

物联网IoT

2. 大模型专用推理框架vLLM（最主流）Text Generation Inference（TGI）TensorRT-LLM（英伟达）MindSpeed（昇腾）LightLLM、FastLLM、Qwen-Server

应用引擎 SAE

数据准备

Embedding Model

安全与访问

图GES

多智能体并行：决策冲突和灾难性合并

Prompts

可观测链路

文件即上下文

1. 模型管理模型上传、版本管理模型格式转换、打包模型生命周期管理

模型验证：Katib

X86（海光、Intel）

硬件辅助虚拟化

核心冲突

集中式存储

VLAN/VxLAN

导出可部署的推理服务

光纤、网线、PON 设备、专线接入硬件

网络

记忆类型

Alertmanager（告警管理器）

模型服务上线：Serving

1. 通用推理框架TorchServeTriton Inference Server（行业标准）TensorFlow ServingONNX Runtime

数据治理框架

Yarn

复杂搜索ES

数据字典发布

可信的数据源

AI Agent

华为云

异构算力资源

批处理引擎Hive

Atlas 800T A2

自动扩缩容

5. 可观测性QPS、时延、错误率、吞吐量硬件利用率（GPU/NPU/CPU）日志、调用链、告警

Lead Agent（Orchestrator）Tools：Rag+MCP+Memory+ run_subagent+complete_task

PaddlePaddle

Hyperparameter Tuning：Katib

Grafana（可视化）

Conversational

运行时状态对象

Operator：TF-OperatorPyTorch-OperatorCaffe2-OperatorMPI-OperatorMXNet-Operator

元数据采集

CPU：4 × 鲲鹏 920NPU：8 × 昇腾 910/910B/910C算力：FP16 约 3.2 PFLOPS，INT8 约 6.4 POPS

算力调度

Community

1. 模型优化量化：INT8/FP8/FP16/BF16剪枝、蒸馏、结构优化KV Cache 优化、PagedAttention

实验管理

CDL

EIP 、SNAT/DNAT、端口映射、就近接入

iSCSI协议：互联网小型计算机系统接口

Eventing

MindSpore

腾讯云湖仓一体：Iceberg、Spark

容器网络类型桥接网络（Bridge Network）/主机网络（Host Network）/无网络（None Network）/自定义网络（Custom Network）

测试评估：Agent测试评估标准

• Agent Harness：将 LLM 包装成 Agent 的代码脚手架，是运行 Agent 的基础框架。

Fairing：打包构建image

Toolkits

Reflexion

1. 参数：学习率、批次大小、模型参数量、GPU 数量、分布式策略（如 DeepSpeed ZeRO 级别）；

大小无限制

概念漂移

CDL实时集成引擎

Kubernetes ASK

湖内分析

后处理工具反馈检索数据后预处理提取核心要点

硬件负载均衡

Volcano（底层算力调度引擎）

优炫数据库 UXDB

数据质量的持续提升减少纠错成本，降低运营风险，提升业务服务满意度

起步阶段：从小样本立刻开始（Start Small），做好开头验证，避免潜在问题，后期返工

文件存储：NAS+缓存+配额管理

内存共享与去（KSM/KVM Shared Memory）

数据接入与数据服务

训推一体 / 服务编排

一键部署

监控运维层

国产新兴：OceanBaseGaussDB

数据安全访问日志审计

鲲鹏服务器

CoT

AI 芯片调度与虚拟化资源配额、隔离、超配GPU动态切分、共享

R200 SXM+128GB HBM4

Trial（尝试）：为了对抗随机性而进行的多次测试（例如运行 10 次），确保结果稳定。

向图检索

Language Model

OLAP集市Doris

集中式网关

Max Length

Out Response

网路虚拟化关键技术

Agent设计模式

多模态内容检索

长期记忆

多模态处理：单独处理图片、视频文本+多模态序列混合统一处理

Evaluation

Prometheus Server

数据条带化（Striping）

稳态智能体上线文工程实践

协作

星环科技 TDH

MCPModel Context Protocol

高质量方法：结构化Schema

Istiod管理面、Linkerd Control Plane、Consul Connect• 服务发现；• 配置下发；• 证书管理；• 可观测性集成

AG-UI（Agent to UI）

推理平台

系统级profiling

训练采集器模型：分类模型处理压缩

Central Dashboard

Hybird Rag混合检索Rag

容器引擎/编排工具/配置管理Docker/K8S/Nacos...

Prompt压缩

上线文窗口限制拆解成离散会话，新会话失忆，Session记忆高墙，遗失工作状态和细节

AIBrix云原生编排平台

SDN：OpenFlow协议

大任务拆分独立的子任务，无依赖无传递中间结果

模型构建：Fairing

通用文本类型：PDF、Word、CSV、Markdown、Html、txt...

Metadata

5. 缓存优化KV Cache 复用、Cache 预分配多层缓存（GPU / 内存 / 磁盘）

环境管理

检索过程优化：Embedding模型优化混合检索与加权重排多查询扩展

容器网络接口CNI

血缘关系

备份与容灾

Temperature

Serverless NPU

KubeFlow（AI 训练全生命周期平台）

华为云 FusionInsight：自研湖仓引擎

RAG（Retrieval Adanced Generation）

MLflow 跟踪实验

流处理引擎Flink

用户交互

Factor 1:Natural Language to Tool Calls #自然语言到工具调用

气球内存（Ballooning）动态内存调度方案

管理中心

Agent之间隔离：主Agent做Planing和任务拆解主与子Agent隔离，子Agent之间上下文隔离主Agent避免海量细节导致灾难性遗忘

实时数据湖

模型效果

Kubeflow 部署推理

辅助当前决策

AI分析

Prompt：角色职责限制

数据清洗

上下文拼接策略优化分块摘要拼接动态窗口拼接

存储架构分类

算子 / 模型层 profiling

MLFlow

Serving：• TFServing• KFServing• Seldon

第三组：基础设施（System Environment）下发指令并行运行测试，收集记录并汇总

阶段管理

多机集群网络：200G/400G RoCEv2 + RDMA + 无收敛叶脊

Prompt LLM参数调优

数据加速

Nsight Systems + Nsight Compute + DCGM Profiler

优先选 Agent

大模型

任务执行多次独立运行，聚合多轮运行结果，投票机制提升置信度 + 鲁棒性

容器池

资源调度与编排

规则分割：字数切分Token分割滑动窗口切分

昇腾 Profiling：全栈性能分析工具

调度与编排：KubernetesVolcano / YARN / Slurm任务队列、优先级调度、弹性训练

云监控服务

规则过滤

单机内网络：NVLink / NVSwitch（必须！）

动态选择策略（Agent Skills）：固定工具集+工具检索工具选择：按需加载，以任务为核心，精准能力治理

Adaptive Rag自适应

CI/CD 平台、部署工具Jenkins、GitLab CI

Overlay 网络：Flannel/Calico/Weave Net(跨云、加密)/CiliumUnderlay网络：IPvlan/Macvlan/SR-IOV

模型部署层

Graph Rag知识图谱Rag

Tools for Serving：• KFServing• Seldon Core Serving• TensorFlow Serving(TFJob)• NVIDIA Triton Inference Server• TensorFlow Batch Prediction

数据接入

贪多嚼不烂：一次会话完成所有任务目标

上下文管理三类信息

自助分析

大屏展示

• Eval Harness：负责发起、并行测试和汇总分数的 “考场系统”。

Frequency Penalty

解决无法提前拆分任务时的并行提效问题。中心 Orchestrator 在任务执行过程中动态拆解子任务给多个 worker 并行完成，最后汇总结果。、子任务非提前定义，而是运行中动态规划拆分。

原则三：根据任务复杂度匹配投入力度

硬编码启发式：滑动窗口设定规则

算子 / 内核级profiling

Multimodel Rag多模态Rag

优化方法

6. 高可用&容错健康检查、自动重启故障隔离、滚动更新多副本、跨节点部署

工具Tools

成本与权限

ReAct 模式

业务对象识别

数据湖B

5. 训练配置与超参设定优化器：AdamW、 Lion学习率：warmup、衰减策略批次：batch size、梯度累积精度：FP16/BF16/FP8 混合精度正则：dropout、权重衰减并行策略、checkpoint 保存策略

Fuction Calling

PaaS(大数据)

数据面

4.分布式推理张量并行 TP流水线并行 PP多机推理协同

统一资源调度

容灾备份

数据飘逸

标准化模型打包格式

K8S

数据服务

5. 分布式推理编排（大规模引擎）

金仓数据仓库（KingbaseDW）

作业、实例运维

Retrieval

数仓资源池

生成策略优化精调、指令微调Answer verification

数据务组织、流程、政策、平台与工具

VolcanoJob（VcJob）增强型批量作业PodGroup容错与自愈作业流编排

高效的数据共享

增强型交换机网关

NVME

语义摘要

大规模训练：TFJob

网络互通连接：VPN 网关、专线、对等连接

GB200 Grace-Blackwell384GB HBM3e（2×B200）

专业词向量数据库：ChromaFaissQdrant

监控：Prometheus

AgentTestOps Agent评估工程

模型开发层

以上下文为中心进行拆分

1. LLM 网关与智能路由（流量大脑）

机器学习

Basic Reflection

Prompt分类：系统提示词和动态提示词

Tracing链路跟踪

原生支撑事件驱动的 Serverless 开发模式

Manager

无缝对接 Knative

• Task（题目）：单道题目具体的测试用例，包含输入和成功判定标准。

RAG 技术全景图（设计模式）

Vector Store-backed Memory

Agent和Workflow核心维度对比

海光信息

KubeFlow流程图

存储格式：Parquet、ORC、Hudi

集群管理

编排器 - 工作者 Orchestrator-Workers

Async异步执行

ReAct/CoT

多模态内容识别：大模型多模态功能VL专业大模型MonkeyOCR、DS-OCR

Top_p

Chat Message

裁剪

检索方法：向量检索关键词检索（BM25）混合检索

AI体系

网络设备

Flink

解决方案

Agent上下文限制

存储虚拟化

模型性能

Stop Sequences

一致的数据标准

IaaS(云原生)

混合架构模式（Hybrid Architecture Pattern）

Feedback

Factor 6: Launch/Pause/Resume with Simple APIs#原则6：使用简单的API启动/暂停/恢复

容器存储容器存储接口（CSI）动态存储供应声明式API与控制循环

压缩

指令确定目标

训练平台

防范策略：提示层防御 (Prompt-Level)：• 分隔符 (Delimiters)、• XML 标签加固、• 防御性指令架构层防御 (Architectural)：• 独立审核模型、• 沙盒隔离、• 输出清洗流程层防御 (Process)：• 最小特权原则、• 人机协作

静态上下文：出厂设置（身份角色、能力、行为准则）

资源调度

昇腾NPU

Superrior

基础设施平台

Envoy：Istio数据面/Linkerd 默认、HAProxy、Nginx• 流量代理：◦ 负载均衡算法；◦ 路由匹配• 安全通信：◦ 自动加密；◦ 身份认证；• 故障恢复：◦ 熔断；◦ 重试；◦ 超时控制• 数据收集：◦ 指标收集；◦ 日志收集；◦ 调用链追踪

选择

封装为标准化项目

容器引擎（Container）Docker、Containerd、CRI-O、Podman、runc...

Serverless（FaaS 函数计算、Serverless 容器服务）

统一数据服务实现规范

权限管控

信息熵度量

Factor 5: Unify Execution State and Business State #统一执行状态和业务状态

容器隔离机制Namespace（环境隔离）+Cgroups（资源限制）

集群 / 分布式 profiling

数据湖A

流水线架构模式（Pipeline-Based Architecture Pattern）

短期记忆：上线文窗口滑动窗口/对话摘要受限于LLM容量上限

Pushgateway

H200 SXM+141GB HBMe3

监督微调 SFT（学任务 / 指令）

文档解析

结构化隔离 Agent 内部状态Schema 设计预先定义信息边界和访问权限“隔离” 定义信息边界，“选择” 在边界内活动。

Conversation Buffer(Context Window)

Output parsers

Agent 构建12条原则Factor

Batching批处理输入数据

幻觉增强事实校验溯源标注

弹性伸缩

LangGraph

ANP智能体网络协议

块存储：LUN+Ceph+分层存储

容器网络

提示链 (Prompt Chaining)

飞腾服务器

原则四：工具设计与选择至关重要

ARM（鲲鹏、泰山等）

云块存储

流量拆分

Factor 12: Make Your Agent a Stateless Reducer # 原则12：无状态

数据质量目标

知识

3. 高密度 LoRA 管理（多租户引擎）

扩展阶段：LLM 裁判的规模化（Auto Eval），五维评分量规实现规模化验证

本地存储：对象存储、文件存储、块存储

上线文管理四大核心操作

评估

硬件监控

Hyper-V、Xen 等

批量作业全生命周期管理

Example Selector

Reason without observation(REWOO)

阿里云：PAI-LangStudio

镜像与环境管理：PyTorch、CUDA、CANN、依赖库

评估指标：准确率召回率命中率（Top-p）

Multi-Agent

Composition：任务组合

LangChain Universe

华为云：AgentArts（Versatile）

攻击&防范

搜索算法：相似度评估 Similarity Measures(FLAT)局部敏感哈希（LSH）Local Sensitive Hashing(LSH)倒排索引文件（IVF）Invert Index File(IVF)乘积量化 Product Quantization(PQ)分层可导航小世界（HNSW）

腾讯云

6. 统一 AI 运行时（标准化底座）

通用工具：PyPDFLlamaIndexLangChain

Factor 4: Tools Are Just Structured Outputs # 工具必须结构化输出

火山云ByteHouse

KMS

Hypervisor（虚拟机监控器 / VMM）

RLHF/DPO/GRPO（对齐人类偏好）

内存虚拟化技术

3.模型编译与加速图编译、算子融合量化引擎（INT8/FP8）硬件专属优化（CUDA/CANN）

数据源认证

多级队列资源借用 / 回收 / 抢占多租户强隔离

物理机池

智算资源池

Map-reduce

Transcript（轨迹）：完整的思考与调用日志，作为评估的过程证据。

网络安全：安全组、云防火墙

腾讯云TKE：VPC-CNI

X86服务器

监控、日志、告警：(算力利用率、loss、学习率、吞吐量)

离散会话失忆

CCI

Factor 3: Own Your Context Window #掌控号你的上线文窗口

兜底阶段：人类评估捕捉盲区（Human Eval），人类介入捕捉自动化裁判的 “信源偏见” 和 “幻觉”；

Ranger

原创作品，尊重产权，请勿抄袭

通信

Memory：Context Window+外部文件主智能体在 Think plan 后执行 Save Plan 动作，将宏观战略写入外部记忆存储

多智能体架构模式（ Multi-Agent Architecture Pattern）

4/7 层转发、会话保持、健康检查、集群负载调度

传统三层网络架构

Core LCEL(LangChain Expression Language

仓库Repository

写入

服务网格（Service Mesh）

上下文缓存

LUN 虚拟化（逻辑单元抽象）

R100 SXM+128GB HBM4

第二组：题目与判卷（Static Definition）

事件源接入

基础网络资源：VPC、弹性网卡

2. LLM 专属自动扩缩容 (APA)（弹性心脏）

安全层

LLM

数据治理

模型微调：对比学习标注回归

任务管理

数据安全等级定义

按需加载

评估工具：Rag ASLangSmithLLM-as-a-Judge

数据湖、数据仓库

NAS（Network Attached Storage 网络附加存储）

目标明确、步骤固定、规则可量化的标准化任务1. 合规审核、内容安全检测（Voting 模式）2. 固定步骤的数据分析、报告生成Chaining+Parallelism3. 按类型分发的客服工单、任务分配（Routing 模式）4. 单点结果的迭代优化（Optimizer 模式）5. 高风险、对鲁棒性要求极高的确定性判断任务

数据校验工具

IaaS（云计算）

全虚拟化