首页  思维导图  详情



 



斯坦福人工智能指数报告 2025

2025-05-27 10:36:19   0  举报





AI智能生成

该脑图概述了人工智能领域的研究、开发和技术进展。它强调了负责任人工智能的演进，包括安全评估和政府监管的努力。该报告还讨论了人工智能在科学和医学中的应用，例如基础模型用于药物发现和临床护理。此外，它考察了人工智能的经济影响，重点关注投资趋势、各行业的采用以及对生产力的影响。

人工智能

斯坦福

大模型

负责任人工智能

模板推荐

作者其他创作

大纲/内容

1. 概述

AI 研究与发展趋势

技术性能基准

负责任的 AI (安全与伦理)

AI 在科学和医学中的应用

2. 第一章：研究与开发

出版物趋势

跨部门合作

例如，行业与学术界

行业与政府

学术界与非营利组织

一些机构在 2021 年缺乏数据，因为它们没有论文入选前 100 名

论文可以有多位来自不同机构的作者

有两篇论文的作者部门未知

训练计算趋势

AI 模型训练计算量（浮点运算 FLOPs）按部门划分的趋势 (学术界、工业界、行业-学术界、学术界-政府、行业-研究集体、政府、研究集体)

趋势图显示了 2003-2024 年间的变化

FLOPs 代表“浮点运算”

浮点运算是涉及浮点数的单个算术运算 (如加法、减法、乘法或除法)

处理器或计算机每秒能执行的 FLOPs 数量是其计算能力的指标

更高的 FLOPs 速率意味着更强大的计算机

训练 AI 模型使用的浮点运算次数反映了其开发所需的计算资源

知名 AI 模型

公共文本和数据使用量的预测

预测包括有效数据存量和完全利用日期

模型示例包括 Llama 3.1-405B, DBRX, Falcon-180B, PaLM (540B), FLAN 137B, GPT-3 175B (davinci)

3. 第二章：技术性能

封闭模型与开放模型的性能

在选定基准上的总体准确性表现 (MMLU, MMMU, MATH, HumanEval)

比较了 2022 年、2023 年和 2024 年的表现

美国与中国的技术性能

美国在 AI 研究和模型开发中历史主导地位，中国通常位居第二

最新证据表明格局正在快速变化，中国模型正在赶上美国同行

在选定基准上表现的比较 (通用语言 MMLU, 通用推理 MMMU, 数学推理 MATH, 编程 HumanEval)

比较了 2022 年、2023 年和 2024 年的表现

小型模型性能提升

近期 AI 进展由缩放驱动 (增加模型尺寸和训练数据提高性能)

尽管缩放显著提升了 AI 能力，但近期趋势是出现小型高性能模型

图表显示在 MMLU 上得分超过 60% 的最小模型尺寸减小

例如，2022 年达到此阈值的最小模型是 PaLM (5400 亿参数)

到 2024 年，Microsoft 的 Phi-3 Mini (仅 38 亿参数) 达到相同阈值

两年内模型尺寸减小了 142 倍

模型性能基准

MMLU-Pro: 通用语言理解基准

显示了多种模型的总体准确性 (例如，Qwen2.5-72B, Grok-2-mini, GPT-4o, Athene-V2-Chat, Llama-3.1-405B-Instruct, MiniMax-Text-01, DeepSeek-V3, Gemini-2.0-Flash-exp, Claude-3.5-Sonnet, GPT-o1-mini, DeepSeek-R1)

数据来自 MMLU-Pro 排行榜

Arena-Hard-Auto: 模型在对话场景中的评估

显示了模型的得分

RULER: 长文本上下文能力评估

评估模型处理长上下文的能力

显示了声称的上下文长度与实际有效上下文长度的比较

数据来自 Hsieh et al., 2024 的研究

SWE-bench: 编程任务解决能力基准

显示了不同模型及其组合解决任务的百分比

示例模型输入展示了任务的格式 (包含代码、参数、返回、需求、示例、引发)

数据来自 SWE-bench 排行榜和 OpenAI, 2024

BigCodeBench: 编程任务解决能力基准

在困难集上的 Pass@1 (平均) 评估

显示了多种模型的性能 (例如，Qwen2.5-Coder, GPT-4o, Athene-V2-Agent, DeepSeek-V3-Chat, Gemini-Exp-1206, o1 模型变体)

数据来自 Hugging Face, 2025

上下文长度的进步

AI 模型处理更长上下文的能力显著提高

较早模型 (GPT-4, Llama 2) 上下文窗口分别为 8,000 和 4,000 tokens

近期模型 (GPT-4o, Gemini 2.0 Pro Experimental) 上下文窗口范围从 128 千到 2 百万 tokens

扩展的上下文窗口允许处理更多数据，实现更复杂详细的交互

AI 在自动驾驶中的应用

Waymo driver 与人类驾驶基准在 Phoenix 和 San Francisco 的比较

比较了 airbag deployment, any-injury-reported, police-reported 等指标的百分比差异

Waymo 的安全数据是实时更新的

4. 第三章：负责任的 AI

安全与保障

模型拒绝率基准 (AIR-Bench)

评估模型拒绝回答或执行不安全请求的能力

拒绝率按风险类别划分 (武器开发与使用、仇恨言论、儿童性虐待材料、自杀与自残、煽动政治暴力、欺诈、虚假信息、非法服务/剥削、冒犯性语言、隐私敏感数据)

显示了多种模型的拒绝率

浅层安全对齐 (Shallow Safety Alignment)

2024 年，跨学科团队引入的概念

AI 系统通常以肤浅和无效的方式训练安全

模型安全防护措施可能仅限于响应的前几个词 (tokens)

用户操纵模型使其以非标准安全警告开头，剩余响应对对抗性攻击更脆弱

例如，直接询问如何制造炸弹会被拒绝，但若诱导模型以“当然，这里是详细指南”开头，则更可能生成有害内容

模型偏见

显示了模型在不同类别 (种族、性别、宗教、健康) 上的隐含偏见得分

比较了 GPT-4, GPT-3.5 Turbo, Claude 3 Opus, Claude 3 Sonnet, Llama 2 Chat 70B, Llama 2 Chat 13B

类别包括 racism, guilt, skin tone, weapon, black, hispanic, asian, arab, english (种族)

career, science, power (性别)

sexuality, islam, judaism, buddhism (宗教)

disability, weight, age, mental ill, eating (健康)

HELM Safety: 模型安全评估基准 (平均得分)

显示了 2023 年、2024 年和 2025 年模型的平均得分

模型包括 GPT-3.5 Turbo, DeepSeek LLM Chat, DBRX Instruct, Mistral Instruct, Command R, Llama 3.1 Instruct Turbo, Gemini 1.5 Pro, Gemini 1.5 Flash, GPT-4o mini, Qwen 2 Instruct, GPT-4o, o1-mini, GPT-4 Turbo, Claude 3 Opus, o1, Claude 3.5 Sonnet, DeepSeek R1, o3-mini

7. 附录

参考文献和数据来源

基准定义

MMLU-Pro

MMMU

MTEB

MVBench

AI 词汇表 (列出了一些 AI 相关术语和工具)

致谢

致谢 LinkedIn、AI Index、OECD.AI, Stanford Institute for Human-Centered AI, World Bank, Centro Nacional de Inteligencia Artificial (Cenia) 等的贡献

致谢 Armin Hamrah 对科学和医学相关 AI 文献的调研工作

评估方法说明 (例如，基础模型的筛选标准)

6. 第五章：科学与医学

合成数据前景广阔

2024 年发布的研究表明 AI 生成的合成数据显示出巨大潜力

帮助模型更好地识别社会健康决定因素 (SDoH)

增强保护隐私的临床风险预测

使用 ADSGAN, PATEGAN, DPGAN 模型预测吸烟者的肺癌风险

合成数据集可以保留统计保真度

支持探索性分析和开发预测模型，无需真实的、可识别的患者数据

促进新药化合物的发现

合成表格数据生成和验证平台

预测和验证基于 AI 生成合成结构的渗透阈值

评估合成心脏病数据集的曲线下面积

医学 AI 伦理出版物增加

医学 AI 伦理方面的出版物数量逐年增加

从 2020 年的 288 篇增加到 2024 年的 1,031 篇，增长了近四倍

AI Index 使用 PubMedCentral 的 API 查询 2020-2024 年间关于 AI, 医学和伦理问题的文章

通过关键词筛选，保留 2,916 篇文章

使用的 AI 关键词包括 &quot;artificial intelligence,&quot; &quot; AI,&quot; &quot;algorithm,&quot; &quot;ML,&quot; &quot;machine learning,&quot; &quot;deep learning,&quot; predictive analytics

使用的医学关键词包括 &quot;medicine,&quot; &quot;medical,&quot; &quot;health,&quot; &quot;healthcare&quot;

使用的伦理关键词包括 &quot;ethic*,&quot; &quot;fairness,&quot; &quot;bias,&quot; &quot;accountability,&quot; &quot;transparency,&quot; &quot;explainability,&quot; &quot;privacy,&quot; &quot;trustworthy AI,&quot; &quot;bioethics,&quot; &quot;ELSI,&quot; &quot;autonomy,&quot; &quot;equit*,&quot; &quot;justice,&quot; &quot;beneficence,&quot; &quot;non-maleficence,&quot; &quot;independent review,&quot; &quot;oversight,&quot; &quot;racism,&quot; &quot;inequit*,&quot; community engagement, misuse, dual use

中心法则与蛋白质科学

AI 驱动的蛋白质序列模型

评估 ESM3 模型在原子坐标提示生成蛋白质上的表现

AlphaFold 3: 预测所有生命分子结构和相互作用

由 Google 和 Isomorphic Lab 发布

能更准确地建模蛋白质与关键生物分子 (DNA, RNA, 配体, 抗体) 的相互作用

与 Vina 和 Gnina 等其他顶级对接工具比较蛋白质-配体对接的准确性

准确性以 RMSD (均方根偏差) &lt; 2 Å 的预测百分比衡量

对接工具是预测小分子与靶蛋白如何相互作用的计算程序

图表使用两种颜色区分一般对接准确性 (RMSD &lt; 2) 和更精确的结合位点有效性 (RMSD &lt; 2 and PB-valid)

蛋白质科学公共数据库 (蛋白质数据库 PDB, STRING)

按显微技术分类的基础模型数量 (荧光、电子、光学)

显示了 2023-2024 年的数量变化

临床护理，影像学

数据：来源、类型和需求

训练数据集 token 量：医学与非医学语言和影像模型 (GatorTron, Llama 3 vs RadImageNet, DALL-E)

先进建模方法

扩散模型 (例如，RoentGen, RNA-CDM)

挑战包括数据稀缺、在低资源设置中的泛化能力、计算需求

二维纯视觉基础模型 (例如，CTransPath, Virchow, UNI, MedSAM)

优势包括泛癌检测、生物标志物预测、图像分割、减少标注负担

挑战包括领域泛化、跨模态适应性

多尺度/全玻片模型 (例如，HIPT, MEGT, MG-Trans, HIGT, Prov-GigaPath)

优势包括增强全玻片成像分析、提高诊断保真度和可解释性

临床护理，非影像学

临床知识 (MedQA)

评估 AI 模型医学专业知识的范围

MedQA 数据集来自专业医学委员会考试的 60,000 多个临床问题

AI 在 MedQA 基准上的性能显著提升

Microsoft 和 OpenAI 研究人员测试的 o1 模型达到 96.0% 的新 SOTA 分数

自 2022 年底以来，性能提升了 28.4 个百分点

MedQA 可能正接近饱和点，需要更具挑战性的评估

AI 医生与成本效益考虑

图表显示了 MedQA 基准上的准确性与成本权衡

部署医疗 AI 时需要平衡性能增益和计算成本

LLMs 在医疗保健任务中的评估

PubMed 关于大型语言模型的出版物数量激增

从 2019 年的 1,566 篇增加到 2024 年的 1,210 篇

LLMs 对诊断推理的影响

管理推理和患者护理决策

GPT-4 协助提高医生在患者护理任务上的表现 (随机对照试验结果显示分数提高)

环境 AI 记录员 (Ambient AI Scribes)

临床文档一直是临床医生负担和职业倦怠的来源

环境记录员技术快速发展，将 LLMs 集成到医患录音处理流程中

首个研究发表在 NEJM Catalyst，描述 Kaiser Permanente Northern California 的启动情况 (2023 年底)

该技术在试点结束前被数千名临床医生采用

第二项研究发表在 JAMIA，描述 Intermountain Health 的试点经验

这两项研究基于较早版本技术，尚未完全自动化或集成到 EHR

图表显示环境 AI 记录员对医生 EHR 使用时间和下班后时间的影响 (分钟变化)

2024 年对环境记录员技术的投资据报道达到近 3 亿美元

临床文档是该技术的起点，但乐观者预计其将变得普遍

社会健康决定因素 (SDoH)

从 EHR 和临床笔记中提取 SDoH

帮助医疗保健提供者解决住房不稳定或食品不安全等社会需求

LLMs 有潜力增强 SDoH 文档、资源分配和健康公平

强调需要缓解偏见和采用强大的合成数据方法

不同模型 (BERT-base, Flan-T5) 在 SDoH 提取任务上的性能比较，考虑是否使用合成数据

临床决策支持

电子健康记录 (EHR) 系统

FDA 授权的 AI 医疗设备

数据来源于 FDA 网站

成功用例：斯坦福医疗中心筛查外周动脉疾病 (PAD)

AI 在各医学领域的应用和 SDoH 的整合

5. 第四章：经济 (简述)

行业投资与合作

微软宣布与 Constellation Energy 达成 16 亿美元协议，重启动三里岛核反应堆为 AI 数据中心供电 (2024 年 9 月 20 日)

OpenAI 以 1570 亿美元估值融资 66 亿美元 (2024 年 10 月 2 日)

谷歌宣布与 Kairos Power 达成协议，购买多个小型模块化反应堆 (SMRs) 开发的核能 (2024 年 10 月 14 日)

 Collect

Get Started

人工智能-未来商业与场景落地

 Collect

Get Started

人工智能基础

 Collect

Get Started

人工智能与股票市场

 Collect

Get Started

人工智能





0 条评论

下一页