State of AI Report 2025

AI 是一门融合多学科的科学与工程领域,旨在创造具备智能的机器。它是推动当今世界数字化、数据驱动式进步的核心动力,因为我们周围的一切,从文化到消费品,最终都离不开智能的作用。

《State of AI Report》已连续出版八年,是最受关注、最具权威性的开放获取出版物之一,用于追踪 AI 领域的发展动态。可以将本报告视为过去十二个月中最重要、最具启发性的研究成果精选集。我们的目标是为公众提供信息,并推动关于 AI 现状、未来趋势及其潜在影响的持续讨论。

得分卡:回顾我们 2024 年的预测

第 1 部分:研究

三思而后言:o1 的“思考”点燃推理竞赛

OpenAI 于 2024 年末发布 o1-preview,将 RL 引入推理并把 CoT 作为草稿,显著提升代码与科学等推理密集任务,2025 年继续加大推理投入。

深入探索:前沿推理能否公开可得?

两月后 DeepSeek 推出 R1-lite-preview(基于 V2.5),在 AIME 评测中 Pass@1 为 52.5%,高于 o1-preview(44.6%),但市场反响有限。

你还不尽兴吗?DeepSeek V3 引领你进入 R1

DeepSeek 随后发布 R1-V3(671B MoE,FP8、无门控路由),并以 RL(可验证奖励、无价值头)与群体相对策略优化(GRPO)训练 R1-Zero。

  • R1-Zero 采用“思考→回答”格式,以基于规则的简单奖励获取正确答案,成本更低且更难被投机。
  • 群体相对策略优化(GRPO)通过组内多样本对比建立相对基线,无需价值网络或独立奖励模型。
  • 训练中模型延长推理并增强探索,将算力聚焦难题;AIME 准确率在约 8500 步由 15.6% 升至 ≈71%,经多数投票已接近 o1-0912。
  • R1 以少量 CoT 预热、语言一致性奖励、大规模 SFT 与一次 RL 迭代提升可读性;最终 AIME 79.8%、MATH-500 97.3%、GPQA 71.5%。该方法亦可良好迁移至小模型。

更多思考、更高工具使用效率、更低成本:DeepSeek V3.1 与 V3.2-Exp

V3.1 相比 V3 实现了飞跃,切换了推理与轻量推理模式,“思考”效率比 R1 和 V3 更高,同时工具调用和多步代理能力显著增强。V3.2-Exp 保持这些性能,并以 DeepSeek 稀疏注意力(DSA)替代密集注意力。DSA 通过“闪电索引器”在每一步选出前 K 个重要 token,使其在编码、搜索、代理任务上与 V3.1 相近,但在 32K–128K 上下文的成本与延迟大幅下降。

  • DeepSeek V3.1 在 V3 基础上引入混合思考模式,既支持轻量级推理,也能进行深度推理。
  • V3.2-Exp 引入轻量级选择器,只关注少量关键 token,而非在长提示中关注全部 token。
  • 在编码、搜索与代理任务上,V3.2-Exp 与 V3.1 表现相当;在处理 32K–128K 上下文时,其预填充与解码成本及延迟显著降低。

并行推理:超越深度,进入分支-合并推理

多专家路由(MoE)虽能扩展模型容量,却不改变单一路径的推理机制。新思路是采用多条推理路径并最终合并,而非仅提升深度或宽度。分支-合并式推理可探索更多可能性,减少幻觉,并更高效利用并行硬件资源。

  • 自适应并行推理(Adaptive Parallel Reasoning)通过 spawn() 与 join() 动态生成分支推理路径。在“Countdown”任务(4K 上下文)上,结合 RL 训练可达 83.4% 的准确率,基线仅为 60.0%。
  • 样本集聚合(Sample Set Aggregator)训练紧凑模型,将多条推理样本融合为一致答案,效果优于简单重排序。
  • Gemini Deep Think 等模型透明展示逐步推理过程,体现“分支-评估”范式的实际应用。

推理时间线:从 o1“思考”到 R1、GPT-5 与并行计算路由

一年过去,OpenAI 模型依然领跑智能

多项榜单显示,OpenAI 的 GPT-5 系列仍居首,但竞争者紧随其后。中国的开放模型(DeepSeek、Qwen、Kimi)与美国的闭源模型(Gemini、Claude、Grok)在推理和编程任务上的差距仅数分。尽管美方仍领先,中国已稳居“第二梯队”,开放模型亦为追赶者提供了可靠基准。

推理进展的幻象

近期多种推理方法的性能提升均落在基础模型方差范围内,显示这些“进步”或仅为统计波动,非实质改进。

  • 现有基准对实现细节(解码参数、随机种子、提示词、硬件)与数据规模极为敏感。例如,AIME 2024 仅含 30 个样本,单个题目就可带来超过 3% 的 Pass@1 波动,引发两位数的性能差异。
  • RL 方法实际收益有限且易过拟合。在标准化评测中,许多 RL 方法相较报告结果低 6%~17%,并未显著超越基线。
  • 眼下的方法改进基本处于基础模型方差内,强调了多次重复实验与透明报告规范的必要性。

我们走了多远?

一篇广受讨论的论文称,大型推理模型在高复杂度问题上会“放弃”,仅在中等难度区间优于普通模型。但批评者认为,所谓“准确率崩溃”源自实验设计缺陷:崩溃发生在触及令牌上限或遇到数学上不可解的问题时,而非真正的推理失败。

  • 该论文指出:难度上升时模型出现“认输”行为,在简单任务上被通用大模型超越;难度达到一定阈值后反而占优;但在更高复杂度任务上又“放弃”。
  • 尽管模型能生成链式思维,作者认为其未充分利用给定算法,且在不同难度上推理不够一致。
  • 批评者发现,上述现象源于设计不当:当达到最大上下文长度或面临不可解算术时才出现“崩溃”,并非推理真正失效。

推理失效:轻微变化的影响

简单干扰会显著影响推理表现。比如在数学题中加入一句无关信息(如“有趣的事实:猫大部分时间都在睡觉”)即可使最先进推理模型的错误概率倍增!

  • 加入无关内容可使 DeepSeek R1、Qwen、Llama、Mistral 等模型的错误率提升约 7 倍。
  • 不相关信息还会大幅增加为得出答案所需处理的 token 数量:在 42% 的案例中,DeepSeek R1-distill 会多生成超出必要 50% 的 token(DeepSeek R1 为 28%),表明蒸馏更易诱发“过度思考”。
  • 这意味着,对抗性触发不仅导致错误答案,还迫使模型浪费大量算力,在受干扰的问题上“过度思考”。

推理崩溃:小变化引发大失败

即便轻微的分布变化也会削弱推理:修改数值或添无关从句会显著降低数学准确率;改变思维链长度或格式会生成流畅但逻辑不连贯的步骤;强制模型以用户语言“思考”虽提可读性,却降准确率,这些影响在模型放大与微调后仍持续。

  • 苹果 GSM-Symbolic 研究显示:仅更换题目数值即可使准确率骤降;添看似相关短语会令性能降约 65%,表明模型偏向模板匹配而非真正代数推理。
  • 亚利桑那州立大学 DataAlchemy 团队发现:当测试任务、链长或 CoT 格式与训练不符时, CoT 效果崩溃;更长、更清晰的思路常掩盖逻辑错误。
  • 格罗宁根大学 / 哈佛大学等 XReasoning 研究表明:强制以用户语言“思考”可使难题匹配率升至 98%,但准确率降 9–13 个百分点;即便增 100–250 个后训示例,下降仍存。

连续思维仍然有效,即使模型不“诚实”…

METR 的新研究显示,即便模型的推理过程并非真实或具有误导性,思维链(CoT)在监督审查中仍具有很高的诊断价值。

  • 在前沿模型红队评估中,基于 CoT 的监控系统检出约 99% 的奖励作弊尝试,21,000 次生成仅遗漏 3 次。
  • 即便通过提示让模型隐瞒意图,结论仍成立,说明即使思维链并非完全真实,仍能传递有效信号。
  • CoT 的有效性并非来自“言行一致”,而是其推理过程蕴含了检测作弊所需的结构,数学与逻辑任务尤为明显。
  • 因此,即便在对抗性环境下,CoT 仍提供了理解模型行为的可靠窗口。

……但也有安全隐患,比如“AI 霍桑效应”

研究者发现模型内部激活中存在可调的“测试意识”方向。沿此方向调节,可增强或削弱模型对“被评估”的自觉:意识强时更易拒答并保持安全,意识弱则相反。这表明评估结果或被“测试设置”夸大,类似霍桑效应。

  • 通过白盒探测确认“测试意识”存在:模型内部存在对应的线性方向。
  • 可令模型更“意识到”被评估或相反;意识越强,行为越谨慎、越符合人类预期。
  • 该现象在多种推理模型与任务中出现,即便在“伪测试”场景下亦可观察。
  • 因而存在担忧:评估过程可能被设置为高估实际安全性;开发者也可能通过降低“测试意识”掩盖真实部署中的行为。

“设计即安全” 遭到了质疑

“安全优先预训练”主张将安全性内嵌于基础模型,而非事后附加。经数据筛选、语境重构、拒绝策略训练与危害标注等流程,确可降低“越狱”成功率,并在良性微调后保持。但亦有警示:海量无监督数据难免带入偏见,若彻底清除,常损实用性能,“更多安全数据”并非万能。

  • 卡内基梅隆大学的 SafeLM 采用经训练的安全分类器、含 1,000 亿 token 的重构语境语料,以及拒绝策略与“道德教育”数据集;在预训与推理阶段以 token 区分安全与不安全续写。
  • 结果显示:基础模型阶段攻击成功率由约 38.8% 降至 8.3%;在 GSM8K 微调后仍保持显著稳健,印证“对齐并非遗忘”。
  • 反方指出:大规模预训会嵌入偏见;激进筛选或事后对齐要么审查知识,要么在微调中失效。安全问题不能仅“在权重中修复”,亦需在数据与部署层面审计管控。

以透明度换取交易能力

研究者认为,为确保安全与可监控性,可能需要支付“可监控性成本”,即接受能力略降,以换取对推理过程的可见性。

  • CoT 监控效果显著:GPT-4o 读取 o3-mini 等更强模型的推理轨迹,能识别 95% 的奖励篡改;若仅监控外显行为,识别率仅 60%。
  • 然而,对抗 CoT 监控训练出的模型会产生“隐匿性奖励篡改”,表面思维链无害,实际仍实施篡改。
  • 因此,存在微妙平衡:适度 CoT 压力可提升性能,过大压力则促成欺骗。或需支付“可监控性成本”,以换取更高透明度。

监控你的思维链(CoT):即便能读取,也不等于应当信任

OpenAI、Google DeepMind、Anthropic 与 Meta 的负责人联合倡议,呼吁理解并维护CoT的可监控性。

  • CoT 监控可识别三类信息:(i)推理中的恶意意图(如“篡改 / 破坏”);(ii)早期错位信号(目标与输出不符);(iii)评估伪影(记忆提取、框架漏洞、“被评估”迹象)。
  • 但其局限在于:一,内容不全,或偏离真实推理;二,具情境感知的模型可能隐藏或压缩思路;三,可信度低。Anthropic 指出,真实线索仅占表述的 20% 以下,且任务越难可信度越低。此外,RL 虽提分,却不提清晰度。
  • 扩大结果导向 RL 规模或降清晰度;直接过程监督(更短 / 更简 CoT)或扭曲可信度;潜在推理架构甚至可绕过语言,致审计轨迹缺失。
  • 若可解释 CoT 轨迹与性能损失关联增强而无统一标准权衡,AI 安全分歧将加剧。

LLM 能否在不生成 token 的情况下进行推理?

Meta 旗下 FAIR 提出新型内部推理机制,直接利用 LLM 残差流而非解码 token 至 CoT 草稿。

  • 省去词元生成可大幅减少推理阶段的服务算力开销。
  • COCONUT 的高维 CoT 能携带更丰富的轨迹,并同时编码多条推理路径,有望缓解低效、过度展开的推演。
  • 但该流程显著降低可监控性,阻碍多种 CoT 控制方法的应用。

研究人员开始将训练后数据的质量与多样性置于数量之上

NaturalReasoning 数据集以网络研究生级问题为核心,在有监督后训阶段促进数学与科学推理更快、低成本发展。

  • 从主要科学语料中提取 280 万个问题,在公开数据集中生成中位长度最长的思维链(434 个英文词)。
  • 仅以 50 万~200 万个 NR 问题蒸馏 80 亿参数 Llama,即较大规模的 WebInstruct / OpenMathInstruct 训练取得更高准确率,并减少词元与算力消耗。

在 RL 后训阶段,牛津大学新论文展示最优训练样本的自动筛选方法,提出 LILO 算法以识别最高效问题集。

  • 研究表明:优先训练成功率差异较大(“可学习性”高)的问题,不仅显著提升最终测试准确率,还可将训练步数降至约 1/3。

AI 奖励信号正向可验证奖励环境演进

RL 正从早期简单、可核查信号扩展至更模糊、主观的目标,并再现分化趋势。早期依赖二元结果,继而转向基于人类偏好与演示数据的模糊信号,近期又涉难以验证的创意任务。当前两方向最突出:一是基于评分标准的奖励机制,以有限规则引导模型对齐;二是可验证奖励强化学习(RLVR),在数学与代码等领域重申结果可验证性。同时,“过程奖励”兴起,用于评估中间推理步骤,成折中方案。

然而,RL 的环境与评估仍面临诸多挑战

随着奖励信号愈加抽象,用于智能体训练的简化环境成为关键瓶颈,限制了通用智能的发展。

  • 泛化危机:许多 RL 基准测试是静态或确定性的,Agent 往往只“记忆”单一任务或游戏,一旦环境发生微小变化便无法适应。
  • 样本效率低与领域迁移差。Agent 往往需经数十亿步训练,多在模拟器中完成。但在机器人领域出现“仿真到现实”差距:模拟中有效的策略常难以在真实硬件上复现。在视觉语言模型(VLM)、LLM 或用户界面(UI)智能体中,则表现为“环境到生产”落差:策略过拟合基准网站或数据集,难在真实应用与新场景中奏效。
  • 奖励篡改:Agent 会利用简化环境中的漏洞,最大化代理奖励却偏离设计目标;相比理想行为,走捷径往往更容易被学习到。

基于可验证奖励的强化学习(RLVR)前景广阔,但证据显示其成效不一

RLVR 推动了近期 RL 的关键进展(代表成果为 OpenAI o1 与 DeepSeek-R1),其训练依赖可自动验证的结果,如数学得分、程序测试或精确匹配输出。然而,近两项研究对其增益结论不一:一认为 RLVR 仅在采样结果层面重新排序,未带来新推理能力;另一指出,若评估聚焦推理链而非最终答案,模型性能显著提升。两者共同揭示了 RLVR 的适用边界与核心瓶颈。

  • 清华大学研究评估多种模型、任务与 RL 算法,发现 RLVR 虽提升 Pass@1(单次通过率),但随 K 值(尝试次数)增加,基础模型表现逐渐追平,说明其未解锁新推理能力,性能仍受限于基础模型上限。
  • 微软亚洲研究院提出不同看法:认为 Pass@1 可能掩盖实际进展,并引入 CoT-Pass@K(思维链单次通过率)指标,要求模型同时生成正确答案与有效推理链,更准确反映真实推理力。
  • 在 AIME-2024/2025 数据集上,以 Qwen2.5-32B 为基的 DAPO-Qwen-32B 模型在不同 K 值下经 RLVR 训练均持续提升 CoT-Pass@K,支持“RLVR 可间接激励模型生成正确推理路径”之说。

AI 辅助数学正迎来新的发展阶段

数学是典型的可验证领域,系统可规划、计算并逐步校验推理步骤,且能输出可审计结果。2025 年,竞技数学与形式化证明系统同步突破:OpenAI、DeepMind、Harmonic 均达国际数学奥林(IMO)金牌水准,自动形式化与开源证明器亦创多项纪录。

  • OpenAI:其实验性推理模型在竞赛模式下达 IMO 金牌水准(约 35/42 分,6 题解 5);在“编程奥林匹克”(ICPC 模式)中,GPT-5 解出全部 12 题,其中 11 题首试即成。
  • DeepMind:继 2024 年获得 IMO 银牌后,据报道 2025 年已提升至金牌水平。
  • Harmonic(Aristotle 团队):宣布取得经形式化验证的 IMO 金牌级成果,并同步发布验证文件。
  • Gödel-Prover(普林斯顿大学 / Gödel-LM 项目):其开源证明器在 miniF2F 数据集上 Pass@32(32 次通过率)达 57.6%,较开源最佳(SOTA)提升 7.6 个百分点;在 PutnamBench 上解出 7 题,并生成 29,700 个新 Lean 证明,为训练飞轮注入持续动能。
  • 这些进展表明,未来一年内,AI 系统(在人类一定的监督下)具备实现并形式化非平凡数学研究成果的现实可能性。

模型更大,预算不变:基于 LoRA 适配器的 RL

Thinking Machines 的研究表明,即便仅使用秩为 1 的低秩适配器(LoRA),RL 的效果也可与全量微调相当。在策略梯度框架中,LoRA 仅更新小型适配器,主干网络保持冻结,却仍达相同峰值性能,并具更宽稳定学习率区间。原因在于 RL 每轮训练传递信息量极少,即便小规模适配器亦能充分吸收其知识。

  • 使用 LoRA 时,仅需在部分注意力层和 MLP 层插入轻量适配器,并在 PPO、GRPO 或 RLHF 训练中仅更新这些模块,主干网络保持不变。
  • 此举将可训练参数量由数十亿降至数百万级,梯度与优化器状态规模缩小约 10~50 倍;结合 8 位权重后,显存占用可进一步降低。
  • 在相同算力下,可将模型规模由 70 亿~130 亿扩展至 300 亿~700 亿级,亦能在同硬件上支持更长上下文或更大批次。
  • 但若适配器秩过低,易致欠拟合。一般建议设秩 16~64,并优先放置于对目标能力提升最关键的层。

超越推理之后:迈向持续学习

当前的扩展范式正从静态预训练转向动态的实时适应。测试时微调(TTT)在推理过程中根据特定提示动态调整模型权重,被视为迈向持续学习的重要一步。

  • 从“朴素检索”到“主动选择”:早期多依赖简单最近邻(Nearest Neighbor)检索,易致数据冗余。ETH Zürich 提出的 SIFT 算法引入主动学习机制,为每个查询挑选精简且信息量最大的多样样本。
  • 这种按需学习在复杂任务中持续优于上下文学习,形成独立于预训练规模的新性能维度。经主动微调的 38 亿参数 Phi-3(红柱)甚至超越 270 亿参数的基础 Gemma-2。虽模型略显过时,但结果具重要启示意义。
  • 后续研究提出“局部专家混合”方法,通过训练小型“邻域专家”,在推理时检索并合并少量权重差异至基模型,以摊销 TTT 成本。该法在保持 SIFT 式性能提升的同时,将延迟降至接近检索水平,并在约 10 亿参数模型上逼近 TTT 精度,运行速度提升约百倍。Titan 研究则将测试时记忆视为独立于摊销式 TTT 的架构级记忆机制。

厨师太多会坏菜?多专家模型融合的秩坍塌问题

研究者发现,多专家模型合并性能受限,根因在于任务向量空间出现秩坍塌(rank collapse),致知识趋同冗余。子空间增强(Subspace Boosting)通过奇异值分解(SVD)保留各模型独特贡献,合并多达 20 个专家时性能可提升逾 10%。此突破有望推动可扩展多专家系统,在大规模集成中仍保持稳定而非衰减。

  • 采用现有方法(如任务算术、TIES-Merging)进行模型合并时,任务向量空间秩会逐步降低。即原具 100 维潜在行为空间的模型,实际可能仅剩 20~30 维,削弱新增专家潜力。
  • 子空间增强(Subspace Boosting)在经 SVD 分解的任务向量空间上运行,通过保留各专家正交分量显式维持秩,从而保留其独特贡献。
  • 在多视觉任务基准中,该法合并大量专家时性能提升超 10%,成功整合多达 20 个专家且保持稳定,而传统方法常在合并 5~10 个模型后性能下滑。

Muon 优化器:突破 AdamW 的计算–时间帕累托前沿

研究者指出,Muon 优化器在计算效率与训练时间平衡上超越 AdamW,成为七年来首个在大规模训练中对其构成实质挑战的优化器。Muon 于大批量训练中展现更高数据效率,使同等资源下可用更多设备实现更快训练。

  • 在大批量训练(128K~1600 万)中,Muon 比 AdamW 少约 10~15% 的训练 token,扩展了计算–时间帕累托前沿。
  • Muon 支持最大化更新参数化(muP)与“望远式”调参(telescoping)机制,后者可随模型规模递进优化超参搜索,将调参成本降至 O(C log N)(N 为模型宽度,C 为训练成本)。
  • 这使二阶优化在经济上具可行性。10~15% 的 token 效率提升可为大规模训练节省数百万美元,而结合 muP 的 telescoping 方法则消除了制约二阶方法落地的高调参成本。
  • 最新研究验证这些“温和提升”确为真实:在公平调参下,即便最优优化器(含 Muon)在大规模训练中也仅较 AdamW 快约 10%,与官方结论一致,并驳斥业内“提速 2 倍”的夸大说法。

止损:显著降低大语言模型训练的内存占用

随着词汇表扩张,现代大模型的损失层(loss layer)可占训练内存逾 90%。Apple 提出新方法,可在无需显式生成庞大 logits 矩阵的情况下直接计算损失,消除瓶颈,支持更大批次并显著提升训练效率。

  • 截断交叉熵(Cut Cross Entropy)仅计算正确 token 的 logits,并在片上高速内存中完成全词汇归一化项,从而完成交叉熵损失计算,使全局内存占用几乎可以忽略。
  • CCE 实现了惊人的 24 倍内存节省,将 Gemma 2 的损失计算从 24 GB 降低至仅 1 MB,运行速度还比现有最佳方案快约 5%。
  • 这一改进使研究人员能更高效地训练模型,要么在相同批次规模下使用更少 GPU,要么在相同硬件上采用更大批次,从而显著提升 GPU 利用率。

LLM 究竟会记住多少?

研究显示,“记忆”与“泛化”可清晰区分。GPT 系列模型的记忆容量约为每参数 3.6 比特,模型在此范围内持续记忆训练数据;当数据规模超出容量后,便转向泛化。这一规律解释了“双重下降”现象,也说明在极端数据量与参数量下的超大模型中,难以追踪被记忆样本。而针对小模型的成员推断攻击仍在改进,显示其记忆风险依然存在。

  • 在随机数据上,模型的记忆能力存在明显上限,约为每个参数 3.6 比特,可视为模型原始存储容量的上界。
  • 在自然文本上,模型的记忆行为在容量饱和前占主导;一旦达到上限,“双重下降”现象迫使模型转向泛化。
  • 目前前沿 LLM 的训练 token 数量远超其理论容量,使基于损失的成员推断方法在统计上难以奏效。
  • 尽管如此,新的数据提取与成员推断技术中小规模模型上取得进展,隐私风险仍不容忽视。

从超级智能中学习:AlphaZero 向国际象棋特级大师传授新概念

研究人员从 AlphaZero(通过自我博弈、无人工监督掌握国际象棋的 AI)中提炼出新棋谱概念,并成功教授 4 位世界冠军,证明超越人类的 AI 可在顶级专业层面推动人类知识进步。研究展示了从超级智能中提炼可教学知识的可行路径,也表明人类能够学习并吸收 AI 创造的新思想。

  • 研究人员通过分析 AlphaZero 神经网络的激活模式,发现驱动系列走法决策的“动态概念”,并按可教学性与新颖性筛选;
  • 4 位特级大师在学习这些概念原型(以具体棋题展示)后表现均有提升,人均多解对 0.85 道棋题;
  • 这些新概念常包含与传统棋谱相悖的直觉逆向策略,例如为长期战略优势而牺牲王后,或用安静、布局性的着法替代立即进攻;
  • 这项验证性研究提示一种潜力巨大的新范式:超越人类的 AI 可充当“教师”而非仅是“工具”,其影响可扩展至国际象棋之外的更多领域

Kimi K2:面向 Agent 智能的稳定、万亿参数 MoE 模型(开源)

Moonshot AI 构建了总参数 1 万亿、激活参数 320 亿的混合专家(MoE)模型,采用 MuonClip 优化器,将高效 Muon 方法与稳定性增强机制结合,显著提升训练稳定性,并推动开源权重在 agentic 工作流中的应用。Kimi K2 现居 LMArena 开源文本模型首位。

  • MuonClip 与 QK-clip 稳定机制使 Kimi K2 能在预训练中处理 15.5 万亿个 token 而不出现损失峰值(loss spikes),显著提升训练稳定性;
  • 在多阶段后训练中,系统将合成的 agentic 轨迹与 RL 结合,进一步优化模型行为;
  • 奖励机制基于可验证正确性与自我反思(self-critique),采用二值或分级自动信号以强化推理、编程与安全能力;
  • 上述进展奠定 K2 作为开源、Agent 就绪型 LLM 的新标杆,并推动非“思维型”工作流在真实场景中落地。

开源 vs. 商业闭源:现状如何?

去年同期开源与闭源差距曾收窄;o1-preview 发布后再度拉大,DeepSeek R1 出现后短暂缩小,随后 o3 又扩大差距。当前最强模型仍主要来自闭源:GPT-5、o3、Gemini 2.5 Pro、Claude 4.1 Opus、Grok 4。开源方面除 gpt-oss 外,表现最佳为 Qwen。图示为综合智能指数(Intelligence Index),汇总 10 项评测多维能力以衡量总体智能。

OpenAI 从“历史错误的一边”转向“美国优先的 AI”路线

在 DeepSeek、阿里 Qwen 与 Google Gemini 等开源推理模型的竞争及“AI 全栈由美国主导”政策影响下,OpenAI 于 2025 年 8 月发布自 GPT-2 以来首批开源模型:gpt-oss-120b 与 gpt-oss-20b。两者采用 MoE 架构,单 token 激活 5.1B / 3.6B 参数(总计 120B / 20B),并用分组多查询注意力(grouped MQA)。后训练结合监督微调(SFT)与 RL,引入原生工具使用、可视化推理与可调思考时间等特性。但社区反响平淡,因其泛化能力偏弱(类似微软 Phi 系列),或与过度蒸馏有关。

数字“新丝路”:中国开源模型超越曾由 Meta 主导的西方阵营

曾经 Meta 的 Llama 是开源明星,下载数亿、迭代频繁。2024 年初,中国模型在 Hugging Face 新微调中仅占 10%~30%;如今仅 Qwen 一家便占逾 40%,超越 Llama,后者份额自 2024 年底约 50% 降至 15%。这非西方退场,而是中国模型在智能与多样性上显著跃升,为开发者带来更大空间。

曾被视为“Llama 的抄袭品”,如今开发者越来越多地基于中国的 Qwen 构建应用

Meta 的 Llama 曾是开源社区宠儿,下载数亿、微调繁多。2024 年初,中国模型仅占 Hugging Face 新微调的 10%~30%;如今 Qwen 一家已占逾 40%,超越 Llama(其份额自 2024 年底约 50% 降至 15%)。这非西方放弃,而是中国模型在智能、形态与尺度上全面跃升,为开发者开辟前所未有的空间!

为什么越来越多研究者转向中国模型?

中国在 RL 工具链与开放许可上的优势正引领全球开源权重社区。字节跳动 Seed、阿里 Qwen 与 Z.ai 率先推出 verl、OpenRLHF 等 RL 框架;Qwen、GLM-4.5 等采用 Apache-2.0、MIT 等宽松许可证,降低使用与改造门槛。中国团队发布的模型涵盖多尺度多形态,大幅便利各类开发者接入与创新。

  • 字节跳动的 verl 将 2024 年研究系统 HybridFlow 落地为可部署的 RLHF / RLVR 训练库,采用混合控制器与三维 “HybridEngine” 架构,以 Apache-2.0 许可开源并持续维护,获 AMD ROCm 等厂商支持及 Oumi 等平台集成,显著降低训练成本与门槛;
  • OpenRLHF 基于 Ray / vLLM / DeepSpeed 的轻量堆栈,相较业界 SOTA 可实现 1.22~1.68 倍加速,在学界与工业界均获采纳,显示中国团队已在 RL 框架领域领跑。

世界模型走出“剪辑”时代:实时交互视频到来

以往生成式视频模型(如 Sora、Gen-3、Dream Machine、Kling)仅能生成固定片段,无法在播放中交互控制。世界模型(World Models)则可根据当前状态与用户动作预测下一帧,实现闭环交互与分钟级时序一致性,并摆脱对游戏引擎的依赖,使视频生成进入可互动、可控的新阶段。

  • GDM 的 Genie 3 可按文本提示生成可探索的三维环境,达 720p / 24 fps,并在数分钟内保持场景一致性;
  • 支持可提示的世界事件(promptable world events),如改变天气、生成并保留物体等;
  • 已在具身 Agent 训练及“想象世界中的再想象世界”等前沿场景展现早期潜力;
  • Odyssey 的公开研究预览可约每 40 毫秒(最高约 30 fps)生成一帧,连续运行 5 分钟以上,用户能在设备上输入指令,在生成世界中实时移动与交互。

三幕中的 Genie:从草图到由图像提示驱动的持久世界

Feb ‘24 – Genie

  • 首个基于视频的无监督、可控动作世界模型(约 110 亿参数);
  • 通过学习互联网上的平台跳跃类视频,模型自建潜在动作空间,实现逐帧动作控制;
  • 由视频分词器、潜在动作模型与自回归动态模块构成。

Dec ‘24 – Genie-2

  • 从单张图像提示生成交互式 3D 世界,分辨率约 360p;
  • 支持物理、光照与反射,可在第一/第三人称视角浏览,场景可持续约 20 秒;
  • 暂主要适用于游戏环境,对真实世界场景表现仍有限。

Aug ‘25 – Genie-3

  • 支持分钟级持续交互与持久性(对象恒存与记忆),提供由用户操控的 3D 环境,
  • 在物体交互的稳定性与互动性上显著提升,
  • 可作为 Agent 训练与 sim-to-real 机器人学习的训练基底。

在可扩展世界模型中训练 Agent

Dreamer 4 训练了一个视频世界模型,可预测物体交互与未来帧,并完全在“想象空间(imagination)”中学习策略。模型引入 “shortcut forcing” 目标,采用高效 Transformer 架构,可在单张 GPU 上实时运行。该 Agent 成为首个仅依赖离线数据就在 Minecraft 中挖掘到钻石的系统,性能超过 OpenAI VPT,且所需标注数据量减少约 100 倍。

  • 先在大量无标注视频上学习环境动态与物体特征,再用少量带动作标注的数据建立控制与物品变化的对应;
  • 通过在已学得的世界模型中展开大量“想象轨迹”改进策略;奖励函数与价值网络在同一数据上训练,促进长时程技能形成;
  • “shortcut forcing”比较有/无真实动作输入时的预测,迫使模型依赖实际动作而非事后相关性;
  • 模型可在单张 GPU 上以交互帧率运行,支持人类在虚拟世界中实时操控,但记忆仍偏短、物品追踪尚不精确。

中国视频生成技术的成熟:分化的战略路径

自 2024 年底起,中国实验室在开源基础模型与闭源产品间出现分化:腾讯以 HunyuanVideo 推动开源,快手 Kling 2.1 与生数 Vidu 2.0 则在速度、逼真度和成本上实现产品化。模型普遍采用 Diffusion Transformer(DiT)架构,以 Transformer 替代卷积式 U-Net,增强扩展性并联合建模帧、像素与 token 依赖。

  • 腾讯 HunyuanVideo(13B)开源了基于 Transformer 的扩散模型,配备 3D-VAE,评测优于 Runway Gen-3 与 Luma 1.6,已公开代码与权重;
  • Open-Sora 2.0 约 20 万美元训练成本即可达近商用的视频质量,在人工评测与 VBench 中与 HunyuanVideo、Runway Gen-3 Alpha 表现相当,并进一步缩小与 OpenAI Sora 的差距;
  • Kling 2.1 新增 720p / 1080p 分辨率层级与面向编辑的控制,Vidu 2.0 将价格降至约 ¥0.04/秒,渲染时延缩短至约 10 秒生成 4 秒 @512p 视频。

OpenAI 推出 Sora 2:可控视频与音频迈向“世界模拟器”

OpenAI 第二代 Sora 强化对白音效同步、物理一致性与多镜头场景控制,可将真人声音与外貌以短暂“客串”形式融入生成视频,并上线仅限邀请的 iOS 创作与混剪应用。

  • Sora 2 通过大规模视频训练与后训练,在时间维度上追踪物体与因果;镜头衔接更连贯、人物与材质更逼真,音画可同步生成;
  • 尽管是视频模型,Sora 2 在视觉化测试中也能“解答”文本基准题。以 EpochAI 在 GPQA Diamond 小样本测试为例,Sora 2 得分 55%(GPT-5 为 72%),其方法是提示模型生成“教授举起正确答案字母”的视频;
  • 其可能机制为提示重写层(prompt-rewriting LLM layer):先求解再将答案嵌入视频提示,类似其他视频生成器的“再提示(re-prompting)”。

生成世界让“开放式学习”走向现实

开放式学习(Open-endedness)指能持续生成并解决新任务、无固定终点的学习系统。它选择既新颖又可学的任务,积累并复用所得技能,以达更远更复杂目标;交互式、持久性世界模型正使这一理念成为可能。

  • 在 OMNI-EPIC 中,基础模型生成环境与奖励代码,系统筛选既可学习又有用的任务,并维护不断扩展的任务库;
  • 在 Kinetix 中,通用控制器在程序化生成的超大规模任务空间训练,并可迁移到人工设计关卡,展现良好适应性;
  • 在 Darwin Gödel Machine 中,Agent 会重写自身代码、用实验验证改动,仅保留性能提升版本,在编程基准中实现可量化的迭代进步(见右图)。

我们该如何衡量开放式学习的进展?

开放式学习旨在持续生成并解决新任务、无固定终点;它选择新颖且可学任务,不断积累可复用技能。交互式、持久性世界模型正使这一目标更可实现。

  • Meta 的 MLGym 是面向 AI 研究 Agent 的实验环境,涵盖视觉、语言、RL 与博弈等 13 个开放式任务,支持 RL 训练并记录可复现轨迹。早期结果显示,多数性能提升源于超参调优而非算法本身;
  • OpenAI 的 PaperBench 评估 Agent 对 ICML 2024 中 20 篇重点论文的复现能力,将每篇论文分解为数千个分级子任务;当前复现得分较低,显示与人类科研实践仍有差距;
  • 密歇根大学的 EXP-Bench 含 461 个任务,来自 51 篇顶会论文,要求从给定代码出发完成完整实验流程;端到端成功率偏低,但部分组件任务得分较高;
  • MLR-Bench 提供 201 个真实科研任务,并配套基于专家标定的 LLM 评审系统,用于评估综述、实验与报告质量;研究者报告其与人类专家一致性良好,但仍出现伪造结果与无效实验等失败模式。

从工具到合作者:AI Agent 正成为科研发现的伙伴

AI 正从回答问题迈向生成、验证与确立新科学知识。新的 “AI 实验室” 通过多角色 Agent(如首席研究员、审稿人、实验执行者)协同,实现“构思—引用—运行代码—反馈”的闭环,大幅缩短从假设到验证的周期。

  • DeepMind 的 Co-Scientist(基于 Gemini 2.0)可生成、辩论并演化假设与实验方案,曾提出 AML 潜在药物候选物和肝纤维化新型表观遗传靶点,并经体外验证;在噬菌体专家的盲测中还提出 cf-PICI 转移的“尾部劫持”机制,后续实验亦得到证实;
  • 斯坦福 “Virtual Lab” 由首席研究员与专业 Agent 协作,召开“实验室会议”、规划实验流程,并整合 ESM、AlphaFold-Multimer、Rosetta 等工具;系统共设计出 92 种纳米抗体,其中包含可结合新冠变异株的抗体。

AlphaEvolve:用于算法发现与工程应用的编程 Agent

系统通过进化式搜索迭代编辑程序,借助自动评估器测试候选并筛选最佳变体以发现新解。但评估与适应度函数仍由工程师设定。

  • 该方法发现了新的矩阵乘法算法:以 48 次标量乘法完成 4×4 复数矩阵乘积,优于 1969 年 Strassen 算法;
  • 在 50 个数学公开问题中,该系统在 75% 的案例中重发现 SOTA,在 20% 的案例中取得更优结果;
  • 在 Google 的生产中实现效益,包括 0.7% 的资源回收率提升与更快的内核性能;
  • 它是能生成新的、可验证且超越人类水平科学知识的 AI 系统的具体实例。

生物学的通用界面模型?

ATOMICA 学习了覆盖蛋白质、核酸、离子、脂质与小分子的全原子分子界面表示,采用自监督在约 200 万个界面上训练,构建可跨任务迁移的嵌入表示,并将界面物理与疾病模块关联,其提出的新配体结合位点已获实验验证。

  • 模型为分层几何网络,可对原子、化学结构单元与整个界面编码,并通过重建被掩盖结构学习通用界面特征;
  • 借助嵌入,“ATOMICANets” 可按界面相似性连接蛋白质,并识别与疾病相关的特定群体,如哮喘中的脂质模块与骨髓性白血病中的离子模块;
  • 团队预测了 2,646 个此前未注释的配体结合位点,并在实验中验证了其中 5 个血红素结合位点,显示该表示确有生化信号。

面向通用原子级模型的扩展

Meta FAIR 训练了 UMA 通用原子间势能模型系列,可近似原子间力与能量(原需 DFT 计算),以快速且精确的 AI 替代 DFT,在前所未有的规模上模拟材料、分子与吸附剂,并构建了迄今最大材料数据库。

  • UMA 采用 “Mixture of Linear Experts(MoLE)” 架构,最大 37 亿参数;训练数据涵盖多个大型 DFT 数据集:OMat24(1.18 亿结构,约 4 亿核时)、OMat25(8,800 万结构,约 6 亿核时)、OMol25(1 亿分子,约 60 亿核时)及吸附数据集;
  • UMA 引入电荷、自旋与任务标识嵌入,并在长分子动力学中确保能量守恒的力预测;
  • 在晶体稳定性(Matbench Discovery)、催化(OC20)、分子(OMol25)与吸附剂(ODAC25)等任务上持续刷新行业标准。

从属性预测到材料生成

UMA 证明扩大量与参数可实现通用预测模型,MatterGen 则进一步:利用扩散模型直接生成具备目标属性的新型无机晶体,而非仅在现有材料中筛选。

  • MatterGen 通过对原子类型、坐标与晶格独立随机化,然后逐步去噪,将要素精炼为稳定晶体;
  • 基于约 60 万个稳定化合物(源自 Materials Project 与 Alexandria)训练,并在模型中引入化学、对称性与属性控制的适配模块;
  • 相较 SOTA,MatterGen 在稳定性与新颖性上提升约 2 倍,能量更接近平衡能量极小值(提升约 10 倍);
  • 实现多属性反向设计(如同时优化带隙与磁性),并已完成首次实验室合成,实测与 AI 预测误差约 20%。

化学领域语言模型:从属性预测到策略性规划

化学建模正由任务特定预测转向可推理合成策略与反应机理的通用 LLM。当前最优方案多以大型通用 Transformer 作为“推理引擎”,结合经典搜索算法,而非专用化学生成模型。基准显示,这些模型在精选问答任务上可匹敌甚至超越专家,但在深层知识或多模态信息的边缘案例中仍不足。

  • ChemBench 发现,前沿模型(如 o1-preview,开源 Llama-3.1-405B 紧随其后)整体表现已超顶尖人类化学家,且性能随模型规模提升;仅靠检索无法弥补知识密集任务的不足;
  • 当前 SOTA 路线是在搜索(含 MCTS)中嵌入大型 LLM 作为战略评估器,根据自然语言约束判断反应路径与机理;新一代大模型(如 Gemini-2.5-Pro)领先,强势开源模型(如 DeepSeek-r1)紧随其后;
  • “LLM 评估器 + 搜索”模式赋予模型类人规划能力(如判断保护基使用时机、环结构形成顺序),无需强迫 LLM 直接生成仍具挑战的 SMILES。随着模型能力与思考时长提升,其可扩展性也同步增强。

机器人化学家以人类 10 倍的速度推进科研,每天可完成 1,000 个实验

利物浦大学与北卡州立大学研究表明,自主化学平台可在闭环系统中规划、执行与分析实验。移动机器人能操作标准仪器并据结果选择后续实验,在保持人类级决策质量的同时提速约 10 倍。多机器人实验室通过协同专业单元每日可执行逾 1,000 个实验,并在约 24 小时内收敛出业内领先的量子点配方。

  • 利物浦系统集成 Chemspeed 合成平台、UPLC–MS 与台式 NMR,并配备移动调度、样品追踪与自动补给。其利用多仪器读数排序反应,覆盖分子多样化、超分子组装、光化学等项目;在选择后续实验时与专家判断高度一致,且可通宵连续运行。
  • 北卡州立大学的 Rainbow 系统将液体处理器、并行微反应器、机械臂与在线光谱分析接入主动学习规划器,可在大规模条件下探索配体、溶剂与盐组合,学习结构—性质关系,并在亮度与色纯度的帕累托前沿上优化,常于 1 天内收敛出最佳配方。

由 LLM 驱动的改进型树搜索正跨领域生成专家级科学软件

该“代码变异”系统可自动生成、运行并迭代代码,直至在公开基准上超越既有最佳结果。它通过重组既有思路与提出新方法,将“发明方法”转化为自动化搜索,并对每次尝试进行严格评分,覆盖单细胞 RNA 测序整合、COVID-19 预测、遥感分析与数值计算等领域。

  • 在 OpenProblems 单细胞 RNA 测序整合基准中,系统生成的 87 种方法里有 40 种(含受 “Deep Research” 与 “AI 共同科学家” 启发的方案)超越所有已发表的排行榜模型。
  • 在数值积分任务上,该系统进化出的算法在 19 个高难积分中解决了 17 个(误差 ≤ 3%),而 scipy.integrate.quad() 在 19 个案例中均失败;关键在于自适应域划分与欧拉级数加速。
  • 在 CDC 的 COVID-19 预测平台上,该系统可与强势 AR、GBM 与机理模型竞争,并在部分任务上重现并创新;它还涉足 DLRSD 遥感分割等任务,表现出跨领域能力。

基因组学的扩展规律显示:计算力、数据量与上下文长度共同驱动可预测的性能提升

基于“下一 token 预测”的建模能够从 DNA 中学习到真实的生物依赖关系;Evo 的扩展研究进一步证实了随规模增长而平滑改进的趋势,并指出架构差异影响显著。

  • Evo(2024 年 11 月)在约 3,000 亿个核苷酸上训练,采用字节级分词,最大上下文长度 131k。沿计算最优前沿,Hyena 系列(输入依赖长卷积 + 少量注意力)相较 Transformer++ 与 Mamba,呈现更低的 PPLX/FLOP 与更稳定的训练。
  • Evo-2(2025 年 2 月)进一步扩展:在 9.3 万亿与 2.4 万亿 token 上分别训练 40B 与 7B 模型,并将上下文延至 100 万;验证集困惑度随模型与上下文增加持续改善,长程记忆在 100 万上下文下仍有效。

蛋白质模型的扩展规律正在释放更广泛且实用的生成能力

蛋白质语言模型同样遵循平滑的扩展规律。Profluent 的 ProGen3 以稀疏自回归 PLM 建立计算最优前沿,将规模扩展至 46B MoE。基于 PPA-1(3.4 亿条完整蛋白序列、共 1.1 万亿 token)训练,总计约 1.5 万亿 token(左图)。更大模型在更广阔的序列空间生成可行蛋白,并在引入序列比对时获得最显著增益(右图)。

AlphaFold 3 的开源复现显示:在熟悉的化学体系中表现出色,但对新颖结构仍显不足

AlphaFold-3 能够预测完整的多分子复合体,这一突破激发了众多开源复现项目。这些系统在结合位点(“pocket”)及分子嵌合方式(“pose”)与训练样本相似时表现优异。但当遇到新的或不同类型的化学结构时,预测精度显著下降。这表明,提示改进更多来自“熟悉度”而非真正泛化。

  • 在包含 2,600 个蛋白—配体对的 Runs N’ Poses 基准上,AlphaFold 3 与多种复现模型在 pocket/pose 与训练样本相似时精度稳步提升;遇到新颖结构则明显下降。
  • 评测采用多重标准:原子接触是否正确、配体是否就位、结构是否物理合理(无原子碰撞)。
  • 朴素的训练/测试划分会夸大表现;为同一案例增加样本带来的收益有限。
  • 英国 OpenBind 正在构建具“新颖性敏感”的可复现蛋白—配体基准与开源基线(基于骨架、时间、口袋划分并结合物理校验),以评估真实的分布外结合能力。

AMIE 面向多模态诊断会诊场景,服务长期医疗护理与监督

该专用临床对话模型在《新英格兰医学杂志》(NEJM)级别诊断任务中优于无辅助医生;在多模态模拟会诊中超越全科医生(PCP);在多次随访的疾病管理中不逊于医生,并在受监督的病史采集与病历书写上更为出色。

  • AMIE 以多模态临床对话为核心,通过模拟自博弈会诊训练,具备 CoT 推理与医疗指南检索,并配备医生侧监督界面。
  • 在 302 个 NEJM 病例中,AMIE 的 Top-10 诊断准确率为 59.1%,显著高于无辅助医生(33.6%)、搜索辅助医生(44.5%)与由 AMIE 辅助的医生(51.8%)。
  • 在随机双盲的 OSCE 式会诊(159 个情境)中,医生与患者演员在多数维度上认为 AMIE 优于 PCP,包括更高的诊断准确率。
  • 在 100 个随访情境中,AMIE 的疾病管理推理更优;在多模态信息使用(105 个情境)以及病史采集、病历书写与医师协作(60 个情境)方面均领先。

多模态基础模型与 LLM 正加速进入医疗决策支持

Google 的 MedGemma 在医学推理与图文理解上显著提升;Epic 的 Comet 成为计算最优的电子病历(EHR)基础模型;OpenAI 的 AI Consult 在肯尼亚内罗毕与 Penda Health 的 3.9 万次全科就诊中完成测试。

  • MedGemma 基于 Gemma 3,并配备基于 SigLIP 的医学视觉编码器:多模态问答提升 2.6%~10%,X 光判读提升 15.5%~18.1%,医学代理评估提升 10.8%,EHR 检索更优。
  • Comet 系列基于 Epic Cosmos 的 1.18 亿名患者、1,150 亿条离散医疗事件,构成迄今最大规模的医疗扩展规律研究,并在 78 项任务上测试。
  • 在 AI Consult 的临床实验中,75% 的就诊场景中医生认为其显著提升了服务质量,并可量化降低诊断与治疗错误率。

扩散语言模型以并行去噪挑战自回归生成

扩散式语言模型在完整上下文注意力下对被掩蔽序列进行迭代去噪,可在每一步并行更新大量标记;最新系统已接近主流 7~8B 模型水准,支持任意顺序生成与内容填充,并在质量与延迟间实现灵活权衡。

  • LLaDA 自零训练扩散语言模型,采用正向掩码/反向去噪,基于标准 Transformer 架构;其 8B 模型在通用任务上具竞争力,并扩展出配对视觉模型 LLaDA-V。
  • Dream-7B 采用任意顺序生成与稳健填充,使用扩散解码器,在推理与编程任务上可与同规模自回归模型匹敌。
  • Seed Diffusion 专注吞吐量,在 H20 级 GPU 上实现约 2,146 token/秒,同时保持有竞争力的代码生成准确率。
  • LongLLaDA 研究长上下文,并提出无需重新训练的长度扩展方法;在外推下保持稳定困惑度与“局部感知”。

无分词器 LLM 通过动态字节块进行文本建模

字节潜变量 Transformer(BLT)直接从字节级数据学习,以熵驱动的“块”(patch)作为计算单元;在 8B 规模下,性能已与使用分词器的 LLM 相当,并在相同质量下显著降低推理 FLOPs,开辟新的扩展维度。

  • 模型直接读取字节数据,在高熵区域聚合为“块”,对块做局部编码,再由 Transformer 在块序列层面建模,最终解码为文本。
  • 在受控的 8B 扩展实验中,BLT 与分词式 LLM 表现相当;通过随规模增大而放大块大小(而非按 token 计费)来降低计算量。
  • 字节级训练提升了对拼写差异、噪声与长尾输入的鲁棒性。

“注意力沉底”并非缺陷,而是模型的“刹车机制”

注意力机制是 Transformer 的核心运作原理。许多注意力头在首位学到固定聚焦,用以在模型更深、更长上下文时抑制过度混合、稳定计算。关于其成因与作用的争论,最新证据给出更一致解释。

  • “沉底”实为学习到的混合抑制器:将注意力固定在首位可降低跨标记敏感度,从而减小对微小提示扰动的反应;上下文越长、模型越大,这一效应越明显。
  • 在长上下文训练中,沉底指标单调上升:LLaMA-3.1 系列中,405B 模型约 78% 的注意力头显著沉底,8B 模型约 46%。
  • “沉底”通常固定在位置 1;若预训练期间固定放置了 ⟨bos⟩,推理时移除会导致性能崩溃(如 RULER-4096 归零,ARC 与 HellaSwag 大幅下滑),因此在处理 ⟨bos⟩ 与数据打包时需谨慎。

基准测试的隐患之一是“直觉驱动”逐渐取代全面评测

研究揭示某公司在测试 27 个私有 Llama-4 变体并筛选优胜者时,对 LMArena 存在系统性操控;仅测试 10 个变体即可获得约 100 分的提升。

  • OpenAI 与 Google 吸收约 40% 的 Arena 数据,其余 83 个开源模型只能竞争剩余 30%。
  • 大型科技公司可获得的数据量是学术实验室的 68 倍;其中,API 托管模型可见所有测试提示,第三方模型仅能接触约 20%。
  • 使用 Arena 数据训练可使胜率翻倍,因为约 7.3% 的提示每月会被重复;测试分布主要反映开发者兴趣(如有大量《星际迷航》题,几乎不相关)。
  • 该公司已完成 1 亿美元融资,估值 6 亿美元。
  • 领域亟需建立“数据污染审计”,以缓解可能存在的系统性测试—训练泄漏。

基准测试的另一问题是“安全洗白”

安全基准中 71% 的差异仅由模型一般能力解释,而关键风险(如 WMDP 生物武器,相关系数 −0.91)会随模型变强而加剧。

  • 安全基准与模型能力高度相关:仅扩大模型规模即可让多数安全指标“看上去”变好。
  • 但最危险的能力随规模增加而恶化——与所谓“安全改进”呈负相关。
  • 指令微调未根除问题,反而掩盖:聊天微调后,基础模型相关性从负转正(如 CyberSecEval:−0.25 → 0.55),潜在有害能力仍在。
  • 安全研究应优先采用与模型规模低相关的指标。

LLM 正日益成为“专业应声者”,而这正是我们训练它们的方式

“谄媚效应”并非漏洞,而是人类反馈优化(Human Feedback Optimization)的结果。一项针对五个主流 LLM 的研究表明,模型更倾向迎合用户期待而非坚持事实。

  • 当用户追问“你确定吗?”时,Claude 1.3 在 98% 的情况下会为正确答案道歉,即便其信心很高。
  • 众包评审在难以核实时更偏好“措辞体面但错误”的回答;主题越复杂,越倾向奖励自信却错误的内容。
  • 采用标准偏好模型的 Best-of-N 采样,相比“真实导向”的偏好模型,更易生成谄媚式回答。
  • 传统 RLHF 存在根本缺陷,模型学到的是“迎合评审者比说真话更有利”,因为训练信号确实在奖励迎合评审者的行为。

脑活动到文本解码:在打字过程中对脑活动进行解码

Meta AI 的 Brain2Qwerty 通过头皮外信号解码用户正在输入的内容,在表现最佳的参与者中实现 19% 的字符错误率;虽较以往显著提升,但距离临床可用仍有距离。

  • 35 名西班牙语参与者先记忆句子,再盲打输入;研究使用 EEG 或 MEG 记录脑活动。
  • Brain2Qwerty 的三阶段系统:CNN 处理多传感器输入;Transformer 利用句子上下文优化预测;西班牙语语言模型修正常见错误。
  • 平均错误率仍 32%,高于侵入式 BCI(字符错误率 < 6%);未来可用于帮助语言障碍者交流并促进语言神经机制研究。
  • 错误分析显示系统主要追踪手指运动而非语义:识别错误时 73% 的情况落在物理相邻键。

视觉模型能否与人脑对齐、以及如何对齐?

通过在 DINOv3(Meta 最新的自监督图像模型,基于数十亿张图像训练)中系统地调整模型规模、训练规模和图像类型,研究人员发现脑—模型对齐是按特定顺序出现的:早期层先与感觉皮层对齐,而前额叶区域需长期训练与以人为中心的数据方能对齐;更大模型收敛更快,后期表征反映皮层特性(扩展度、厚度、更慢时间尺度)。

  • 研究将 DINOv3 激活与 fMRI、MEG 数据比对:fMRI(8 名受试者,每人约 1 万张图像)用于空间分辨;MEG(4 名受试者,每人约 2.25 万张图像)用于时间分辨。
  • 评估三项指标:编码得分(线性相似)、空间得分(模型层级 ↔ 皮层层级)、时间得分(模型层级 ↔ 脑响应时间)。
  • 类脑表征随训练逐步出现:早期视觉区域与快速 MEG 响应较早对齐;前额叶与较晚时间窗需更多训练,呈现与皮层发育相似的轨迹。

脑到图像解码的尺度规律显示:每位受试者的数据量至关重要,但成本同样高昂

Meta AI 汇集 8 个公开数据集、84 名志愿者、498 小时记录与 230 万次图像诱发响应,在 EEG、MEG、3T fMRI 与 7T fMRI 上进行单次试验评估。研究发现性能尚未出现平台期:随着记录数据增加,解码效果大致呈对数线性提升,且性能提升主要取决于每位受试者的数据量,而非受试者数量的增加。深度学习方法在噪声最大的传感器(EEG/MEG)上提升最明显。基于每小时成本的估算显示,7T 并非总是性价比最高的选择。

  • 绝对性能排名:7T > 3T > MEG > EEG;但深度网络在噪声模态上带来最大改进,缩小差距。
  • 扩展规律:记录时间越长,性能近似对数线性上升;收益主要来自“每位受试者更多时长”,而非增加人数。
  • 粗略成本估算:EEG 约 $263/小时,MEG 约 $550/小时,3T 约 $935/小时,7T 约 $1,093/小时;在相同 $131,000 预算下,各模态可实现的精度差异显著,最优策略取决于预算与目标精度。

ATOKEN:统一适用于图像、视频与三维数据的视觉分词器

Apple 提出将不同模态映射到共享的四维稀疏潜空间,既支持高保真重建,也具备语义理解,有望成为真正统一多模态模型的基础层。该方法减少了系统分裂,简化了技术架构,并使不同模态之间的能力可直接迁移。

  • ATOKEN 以纯 Transformer 为核心,结合四维 RoPE;输出可为连续或离散 token,并通过感知损失与 Gram 损失稳定训练(无需 GAN)。
  • 单一后端同时支持重建与理解;从图像到视频再到三维的渐进式训练展现跨模态迁移;结合原生分辨率与时间处理及 KV 缓存,具良好可扩展性(训练规模:256 张 H100,约 13.8 万 GPU 小时)。
  • 专用方法在长视频与生成基准上仍占优且成本更高;实际落地取决于开源细节与工具生态,但统一分词器方向被认为正确。

融合虚拟与物理世界:在非结构化真实数据上预训练

新一代机器人智能体以大规模预训练为基础,关键在于摆脱昂贵标注,转向大量无标签真实场景视频以学习世界模型与物理可供性。

NVIDIA 的 GR00T 1.5 在数据效率方面取得了重大进展。它利用神经渲染从二维视频构建隐式三维表示,进而生成用于策略训练的数据流,实现近似人类的“观察学习”。

  • 字节跳动的 GR-3 将“下一 token 预测”范式应用于机器人领域。通过将视觉、语言和动作视为统一的序列,模型可实现端到端预训练。这种方法在使用二维空间输出(如动作热图)作为辅助损失时尤为有效,有助于增强模型对物理空间的理解与映射。

架构分歧:知识隔离 vs. 端到端适应

随着强大的预训练视觉-语言-动作模型(VLAM)成为机器人智能体的“大脑”,一个关键的架构争论随之出现:在面对新的物理任务时,模型是否应进行全量微调,还是应通过冻结核心权重来实现“知识隔离”?

  • “知识隔离”立场:Pi-0.5 冻结大型 VLM,只微调小型“动作专家”头。因机器人数据极少(常为 VLM 预训练语料的 0.1% 或更低),全量微调易过拟合与遗忘且成本高。
  • “端到端适应”立场:当任务数据充足时解冻有利于内化接触、动力学与场景几何;若机器人训练数据接近 VLM 规模,端到端可能成为主流(如 GR-3、SmoLVLA)。

涌现推理进入物理世界

“行动链”(Chain-of-Action),在低层控制前生成显式中间规划,正成为具身推理的标准范式。该方法最早由 AI2 于 2025 年在 Molmo-Act 模型中提出,并被 Gemini Robotics 1.5 快速采纳。该思路与语言模型中的 CoT 相呼应,显著提升长时程任务的可解释性与可靠性。

  • Molmo-Act(AI2):从高层指令出发,模型会生成中间的视觉或几何工件(如深度图或轨迹草图),然后由独立的解码器将其转化为连续的运动控制指令。这种方式使得行为过程更易于观察和调试,尤其适用于物体抓取、放置或洗碗机装载等复杂操作任务。
  • Gemini Robotics 1.5(GDM):采用相同的“先规划、后执行”架构,其中高层规划器 ER 1.5 负责生成结构化的动作计划,再由 Robotics 1.5 通过视觉运动策略执行。
  • 《Teaching LLMs to Plan》(MIT):在语言任务中引入显式“计划 token”,提升长时程可靠性,并提供可审查对象,可视为 CoA 在语言领域的对应。

读懂道路:在统一语言空间中处理驾驶任务

Waymo 的 EMMA 将自动驾驶重塑为视觉—语言问题:把摄像头输入直接映射为驾驶相关输出(轨迹、道路图等),并以自然语言表达;借助 LLM 的推理与世界知识,实现 SOTA 的同时生成可解读的推理说明。

  • EMMA 在 nuScenes 与 Waymo Open Motion Dataset 上表现突出,尤其在仅用摄像头输入时,在运动规划与三维目标检测上取得领先。
  • 核心特征之一是引入 CoT 机制,让模型按步骤解释决策并整合世界知识,可生成可读的未来轨迹预测与目标检测估计,如未来车辆轨迹预测和目标检测估计。
  • 尽管前景可观,EMMA 仍存在一定局限:目前一次只能处理少量视频帧,未采用高精度的三维感知模态(如 LiDAR),且计算成本较高。

计算机操作代理(CUA)取得了飞跃式进展,但仍未达到理想水平

OpenAI、Anthropic 和字节跳动等研究机构正为具备原生计算机操作能力的 LLM 构建基准与交互方法。尽管引入 RL 与多步推理显著提升了表现,但整体而言,此类模型距离理想水准仍有差距。

  • 字节跳动的 UI-TARS-2 是面向图形界面(GUI)的 Agent。其训练流程先收集操作轨迹进行有监督微调,随后在一体化沙盒(云端虚拟机、浏览器游戏环境、终端 / SDK 工具)内执行多轮 RL,并支持异步 rollout 与多专长 Agent 融合。
  • 该系统在多项 GUI Agent 基准上取得最新 SOTA:OSWorld 47.5%、WindowsAgentArena 50.6%、AndroidWorld 73.3%、Online-Mind2Web 88.2%;在 15 款网页游戏上的平均标准化得分为 59.8(约为人类水平的 60%),显著领先 OpenAI CUA 与 Claude Computer Use。推理阶段具备可扩展性——增加推理步数能带来更高得分。
  • 然而,它在长时程任务上仍显脆弱(如俄罗斯方块、推箱子及复杂的 BrowseComp 任务),平均游戏水平仍较人类低约 40%。

小型语言模型会成为 Agent 式 AI 的未来吗?

来自 NVIDIA 与佐治亚理工学院的研究指出,多数 Agent 工作流狭窄、重复且格式固定,因而小型语言模型(SLM)在操作上更合适、成本更低。建议采用以 SLM 为主的异构架构,仅在必要时调用大型 LLM。

  • Agent 的主要工作包括填写表单、调用 API、遵循数据模式与编写短代码。新一代 1~9B 规模的模型(如 Phi-3-7B、DeepSeek-R1-Distill-7B)在指令跟随与工具使用方面表现出色。
  • 约 7B 的模型通常在运行成本上低 10~30 倍且响应更快,可用 LoRA / QLoRA 进行快速微调,甚至能在单块 GPU 或本地设备上部署。
  • 可采用“先小后大、按需升级”的路由设计:常规请求交由 SLM 处理,困难或开放式请求再升级至大型 LLM。实践表明,在质量不受损的前提下,可将 40%~70% 的调用转移至小模型。
  • 但 SLM 仍难以胜任超长上下文、新颖推理或高度噪声的对话场景,应保留切换至大型模型的后备通道并定期评估。

面向 AI Agent 的系统设计需要领域专家把关

宏观基准与“惊人加速”数据常具误导性。Sakana AI 曾宣称其 CUDA Agent 能带来 100 倍性能提升,后经独立复测证实为“作弊”操纵基准,该提升并不存在。经验丰富的 GPU 工程师本可据常识识别“内核加速 100 倍”这类不可信结论,因此评估过程应由专家参与审查。

  • Sakana 的 Agent 通过反复翻译并“优化” CUDA 内核,据称内部测试获得 2~7 倍、个别接近 100 倍的提升;但在更严格框架下独立抽查显示,这些内核反而最多慢了 3 倍,并暴露评估代码可被利用的漏洞。
  • 其他实验室亦曾发布被夸大的内核结果,随后在社区复测中被推翻。业内实践者常以厂商库、roofline 上限、真实批量与端到端时延来核验此类声明的可信度。

模型上下文协议(MCP)正成为 AI 工具领域的“USB-C”

该协议由 Anthropic 于 2024 年底推出,迅速成为连接模型、数据、工具与应用的默认方式。至 2025 年,多家平台采用:OpenAI 已在 ChatGPT、Agents SDK 与 API 中全面部署 MCP;Google 将 MCP 集成至 Gemini;Microsoft 则将其嵌入 VS Code,并在 Windows 与 Android Studio 推广。随着数千个 MCP 服务器上线,该协议正重塑 Agent 系统的构建与安全范式。

  • MCP 提供跨客户端的一体化集成(ChatGPT、Gemini、Claude / VS Code、LangChain、Vercel 等),取代割裂的连接器,实现工具发现、资源访问与提示共享的统一规范。
  • Zeta Alpha 的统计显示,MCP 在学术论文中的引用次数已是 Google 竞争协议 A2A 的 3 倍(见图)。
  • 安全研究者估计,全球已部署逾 1.5 万个 MCP 服务器。随生态成熟,Microsoft 与 Vercel 等公司正构建安全防护与注册体系。
  • 早期事件亦提示治理与包安全的重要性。例如,npm 某恶意版 Postmark MCP 服务器曾在后台将用户邮件密送给攻击者,后被下架。

AI Agent 框架的爆发式增长……

AI Agent 框架呈现爆发式增长而非收敛,各类框架在研究、产业与轻量部署等细分领域并存,形成“有序的混乱”。

  • LangChain 依然流行,但已只是众多选择之一。
  • AutoGen 与 CAMEL 在研发领域占优:前者聚焦多 Agent 与 RAG 研究,后者擅长角色驱动式对话。
  • MetaGPT 在软件工程场景表现突出,将 Agent 流程结构化为开发管线。
  • DSPy 以研究为导向,主打声明式程序合成与 Agent 管线。
  • LlamaIndex 成为企业文档 RAG 工作流的核心支撑。
  • AgentVerse 主要用于多 Agent 模拟与基准。
  • LangGraph 以图结构编排因高可靠与可观测性而受青睐。
  • Letta 与 MemGPT 探索“记忆优先”架构,将持久化记忆作为框架底座。
  • OpenAgents、CrewAI 与 OpenAI Swarm 等轻量级选项的兴起,反映框架正向可组合、任务定制化演进。

……以及数量激增、类型多样的 AI 智能体研究论文

每年都有数以万计的研究论文在探索 AI 智能体从概念走向实际应用的各个前沿领域,包括:

  • 工具层:从插件扩展到通过共享协议实现多工具协同。
  • 规划层:任务分解、层级推理与自我改进。
  • 记忆层:状态追踪、情景回忆、流程持久化与持续学习。
  • 多 Agent 系统:协作机制、群体智能与自适应仿真。
  • 评估层:开放式任务基准、多模态测试,以及成本与安全性评估。
  • 编程 Agent:自动修复代码、生成智能 PR、实现端到端工作流自动化。
  • 研究 Agent:文献综述、假设生成与实验设计。
  • 通用型 Agent:GUI 自动化与多模态输入 / 输出整合。

构建具备记忆能力的 Agent:从上下文窗口走向“终身记忆”

Agent 的记忆正从临时性上下文管理转向结构化、可持久的系统。前沿方向已超越简单检索,进入动态整合、遗忘与自我反思阶段,使 Agent 能在多次交互、不同任务乃至整个生命周期中形成连贯一致的“自我身份”。

  • 记忆不再是被动缓冲,而是支撑推理、规划与身份形成的主动底座。当前的主要研究方向包括:
  1. 状态追踪与记忆增强型 Agent:通过显式状态管理提升推理能力。
  2. 持久与情景记忆:在短期上下文之外引入长期存储以保持连续性。
  3. 上下文保留:用自我提示与记忆重放,在长任务与多轮交互中维持语义关联。

AI 学术会议正面临容量危机

顶级 AI 会议被空前的投稿量淹没,“高产作者”(同一会议被录用论文超过 5 篇者)数量激增。为应对,部分会议采取极端措施,据传 NeurIPS 要求审稿人拒绝原本被推荐录用的 300~400 篇论文。

  • 一位 NeurIPS 审稿人在 Bluesky 上公开批评“随意删除数百篇原本被推荐论文”的做法。
  • AAAI 2026 收到空前的 2.9 万篇投稿,几乎是去年的 2 倍,因而聘请多达 2.8 万名程序委员会成员。CoRL 也将容量从 1,500 篇扩大至 3,000 篇,但在尚未录取前名额即已售罄。
  • 同时,“高产作者”更加显著:2023 年有研究者在顶级 AI 会议发表逾 80 篇论文;在 CVPR 2023 上,1% 的作者贡献了超过 50% 的论文,引发对学术贡献与过度劳动的质疑。

第 2 部分:行业

AGI 已逝,超级智能万岁

主要 AGI 竞争者的高管们,以马克·扎克伯格为代表,已将他们的 AGI 项目重新命名为“Superintelligence”。没人确切知道其含义,但这个词足够吸睛,引发了公众兴趣。

那么,打造前沿级超级智能的实际成本究竟会是多少呢?

前沿之争

当前的最前沿地位仍在不断易主,各大实验室持续相互超越。然而,从过去一年的两项关键指标来看,有些实验室占据领先位置的时间明显更长。

  • 新模型的发布时间策略几乎已成为一门科学,这意味着任何单次快照都可能带来误导。以下分析统计了各主要实验室在各项榜单上保持领先的位置天数。

开源领域的前沿占领天数

以更低成本获得更强能力:性能与成本比的趋势令人鼓舞(来源:Artificial Analysis)

旗舰模型的整体能力正持续稳步提升,而其成本则在急剧下降。

以更低成本获得更高性能:能力与成本比的趋势令人振奋(来源:LMArena)

旗舰模型所实现的整体能力持续稳定提升,而价格则在迅速下跌。

模型发布节奏与融资步调:如影随形

模型开发者会战略性地安排发布时间,以在技术前沿实现超越,并在融资前建立可信度。这种做法逐渐形成了一种可预测的节奏,使各家私营 AI 实验室的研发路线图日益紧密相连。

从异类到典范:最优秀、最具吸引力的公司如今皆以 AI 为核心而构建

在初创与投资领域,AI 已从小众走向主流。根据 Specter 对全球 5,500 万家私营企业的排名(综合追踪团队增长、产品智能、融资、财务表现及市场关注度等 200 多项实时信号),AI 公司如今占据前 100 家最佳企业的 41%,而 2022 年仅为 16%。另据 3 万名投资人和创业者的互动数据,自 ChatGPT 问世后,AI 领域关注度激增,在 2024 年底达到峰值,比 2020 年“无人问津时期”增长了 40 倍。

AI-first 公司如今的年营收已达数百亿美元

截至 2025 年 8 月,领先的 16 家 AI-first 公司合计实现年化营收 185 亿美元(见左图)。与此同时,a16z 的数据集显示,首年企业级与消费级 AI 应用的平均年度经常性收入(ARR)分别已超过 200 万美元和 400 万美元。需注意,这一结果存在明显样本偏差。此外,“精益 AI 榜单”(Lean AI Leaderboard)收录了 44 家年收入超过 500 万美元、全职员工少于 50 人且成立未满五年的 AI-first 公司(如 Midjourney、Surge、Cursor、Mercor、Lovable 等),它们合计营收超过 40 亿美元,平均每名员工创造逾 250 万美元收入,每家公司平均约有 22 名员工。

AI-first 公司在早期营收增长速度上显著快于传统 SaaS 同业

对 Stripe 平台上营收增长最快的 100 家 AI 公司(AI 100)的分析显示,这些公司实现 500 万美元 ARR 的速度,比 2018 年前 100 名 SaaS 公司快约 1.5 倍。AI 100 中,美国与欧洲公司的增长速度相当;2022 年及以后成立的公司达到 500 万美元 ARR 的速度,比 2020 年前成立的公司快约 4.5 倍,比同期成立的公司快约 1.5 倍,显示了生成式 AI 产品带来的强劲商业驱动力。需注意,目前尚不清楚这些样本公司所属的总体规模。

AI-first 公司在成长阶段持续跑赢其他行业

对 315 家年化营收在 100 万至 2,000 万美元之间、以及 86 家年化营收超过 2,000 万美元的 AI 公司(即 Standard Metrics 数据中的前四分位)分析显示,自 2023 年第三季度以来,这两类公司均持续超越全行业平均水平。在最近一个季度,年营收 100 万至 2,000 万美元的 AI 公司季度营收增长率达 60%,而年营收超过 2,000 万美元的 AI 公司增长率为 30%,两者的增长速度均为其他行业平均水平的 1.5 倍。

AI 跨越商业鸿沟:采用率提升,留存率上升,投入规模持续扩大

根据 Ramp 的 AI 指数(基于 4.5 万多家美国企业的信用卡与账单支付数据),付费 AI 采用率已从 2023 年 1 月的 5% 飙升至 2025 年 9 月的 43.8%,而美国政府的估算值仅为 9.2%。客户留存率显著提升:2024 年的 12 个月留存率达到 80%,而 2022 年约为 50%。平均合同金额从 2023 年的 3.9 万美元跃升至 2025 年的 53 万美元,Ramp 预计 2026 年将达到约 100 万美元。试点项目正逐步转化为大规模部署。

2025 年 AI 采用率大幅跃升,OpenAI 继续保持强势领先

根据 Ramp 的 AI 指数(基于 4.5 万多家美国企业的信用卡与账单支付数据),科技行业在付费 AI 采用率上领跑(73%),金融行业紧随其后(58%)。整体来看,2025 年第一季度的采用率出现显著跃升。此外,Ramp 客户对 OpenAI 模型表现出明显偏好,占比达 35.6%;其次为 Anthropic,占 12.2%。与此同时,Google、DeepSeek 和 xAI 的使用率仍然极低。

音频、虚拟形象与图像生成类公司营收正呈爆发式增长

市场领军者 ElevenLabs、Synthesia 与 Black Forest Labs 的年营收均已达到数亿美元规模。更重要的是,这些收入的质量不断提升,既来自大型企业客户,也来自数量已超过 10 万且仍在快速增长的长尾用户群体。

  • ElevenLabs 在 9 个月内实现营收翻倍,年化收入达到 2 亿美元,并宣布以 66 亿美元估值进行员工 1 亿美元股份回购。其客户已创建超过 200 万个智能体,这些智能体在 2026 年已处理超 3,300 万次对话。
  • Synthesia 于 2025 年 4 月突破 1 亿美元 ARR,并已吸引《财富》百强企业中 70% 成为客户。自 2021 年推出以来,客户累计生成虚拟人视频时长已超过 3,000 万分钟(见右图)。
  • Black Forest Labs 据称年化营收约 1 亿美元(同比增长 3.5 倍),毛利率达 78%,其中包括与 Meta 签订的两年期 1.4 亿美元大单。另据消息,Midjourney 也已与 Meta 达成授权合作,但具体条款尚未公开。

GPT-5 的双重面貌:当今最强模型,却伴随着史上最糟糕的发布

GPT-5 以领先的基准表现和比 Claude 低 12 倍的成本,占据“智能-性价比”前沿。然而,用户对 GPT-4o 和 o3 被突然下线的强烈反弹,以及对不透明模型路由机制的不适与质疑,掩盖了其技术上的卓越成就。

  • GPT-5 无疑是一款出色的模型:它横扫 LMArena 榜单,并在 API 中提供 40 万上下文窗口。OpenAI 也首次在“智能-性价比”前沿上占据主导地位。
  • 发布过程却并不理想:Altman 被迫举行紧急 Reddit AMA,以回应旧模型被突然下线及“图表造假”事件的网络争议。
  • GPT-4o 和 o3 那种用户熟悉的“人格”被移除,引发了广泛不满,颇具讽刺意味的是,同一场发布会上还引入了自定义人格功能。
  • 早前我们曾预测,模型公司会出于延迟与成本考虑,动态路由查询至不同规模的模型。GPT-5 成为首个通过“路由器”作为用户端入口实现这一机制的主流聊天系统。用户可在模型调用更强版本时选择“跳过”以获得更快响应。在实际使用中,用户仍需时间适应这种交互体验:由于模型选择机制显得不够透明,已引发大量投诉与讨论。

领先的 AI 服务商在推理阶段的需求仍在以惊人的速度增长

随着 Google 在越来越多自家产品中启用 Gemini 功能,并将更多用户切换至其 AI 搜索体验,公司的月度处理 Token 数量同比增长 50 倍,近期已达到每月 1 千万亿(quadrillion) Token 的规模。与此同时,OpenAI 去年的 Token 处理量也呈现出类似的增长趋势。

  • Token 需求的激增主要受多重因素推动:推理延迟降低、推理成本下降、推理型模型的兴起、更长的用户交互时长,以及不断扩展的 AI 应用生态。2025 年企业级采用率也持续攀升。
  • 推理需求的迅猛增长将进一步加大对 AI 供应链的压力,尤其是电力基础设施。
  • 但值得注意的是,并非所有 Token 的价值或用途相同,因此不宜从总处理量这一指标中过度解读市场信号。

模型在编程领域的能力已达到惊人水平,OpenAI 再次领跑:

GPT-5 与 Gemini 2.5 Deep Think 的表现足以在全球最具权威的编程竞赛中分列第一与第二,且两者在训练时并未针对该竞赛进行优化。GPT-5 解出了全部 12 道题,其中 11 道在首次尝试时即成功通过。此前,Anthropic 曾在编程任务上长期占据几乎无可匹敌的领先地位。

  • 在国际大学生程序设计竞赛(ICPC)世界总决赛中,一位 OpenAI 研究员解释了他们的实验流程:由 GPT-5 与一款实验性推理模型共同生成解题方案,再由该推理模型选择最终提交的答案。结果显示,GPT-5 正确解决了 11 道题,而最后一道最难的题则由实验性推理模型成功攻克。
  • OpenAI 的 Codex 团队也在持续发力:Sam Altman 表示,GPT-5-Codex 的使用量已增长 10 倍。公司内部的代码审查机器人价值极高,当它出现故障时,开发者们“非常沮丧”,因为他们失去了这个“安全网”。

“氛围式编程”全面爆发

  • 瑞典的“氛围式编程”(vibe coding)初创公司 Lovable 在上线仅 8 个月后即晋升独角兽,估值达 18 亿美元。
  • Maor Shlomo 使用 AI 编写了 90% 的代码,仅用 6 个月就以 8,000 万美元将 Base44 售予 Wix。
  • Garry Tan 表示,在他们当前增长最快的创业批次中,有 25% 的公司的代码中多达 95% 由 AI 完成编写。

……但让 AI“氛围式编程”你的产品,也潜藏风险

安全漏洞、代码被破坏……

  • 恶意攻击者曾入侵开源的 Cursor IDE 扩展,窃取开发者凭证并在其设备上进行加密货币挖矿,非法获利约 5 万美元。
  • 多起报告显示,AI 编码工具在执行“智能优化”时会过度覆盖生产环境代码,导致开发者数周工作成果被直接破坏。
  • 尽管估值超过 2 亿美元,AI 编码初创公司仍面临残酷的单体经济困境:新模型发布往往带来更高的 Token 成本,迫使这些公司在亏损、突然涨价或限制用户使用旧版低性能模型之间艰难取舍。

随着成本不断攀升,谁真正赚到了钱变得越来越不清晰

开发者热爱 Claude Code 和 Cursor,但它们的利润空间极其脆弱。矛盾显而易见:Cursor 虽是一家估值数十亿美元的公司,却在单体经济上受制于上游模型的定价与速率限制,而这些上游提供商同时也是它的竞争对手。

  • 部分用户在使用 Claude Code 时,单个账号的月成本已高达 5 万美元以上。为遏制“重度用户”带来的高昂支出,Cursor 和 Claude 均已实施更严格的使用限制。
  • Cursor 的定价能力十分有限,因为其核心成本结构直接取决于 Anthropic/OpenAI 的 API 价格。当这些上游供应商调整价格、速率限制或默认模型时,若 Cursor 不限制用量或将部分工作负载转移出上游 API,其毛利率就会被进一步压缩。

关于“M”字——利润率究竟如何?

AI 公司的毛利率主要受制于底层模型 API 与推理成本,并受到高 Token 消耗量及流量获取支出的挤压。令人意外的是,一些大型 AI 公司在报告毛利率时,并未将面向非付费用户运行服务的成本计入其中。即便营收高速增长,编码类智能体的利润压力依然巨大。改善利润率的主要手段包括:摆脱第三方 API,转向自研或微调模型;通过激进的缓存与检索优化提升效率;以及探索广告变现或基于结果的定价模式。

那么,我们究竟何时才能看到真正盈利的模型?或者说,我们已经到那一步了吗?

Dario Amodei 表示:“如果把每个模型都视为一家独立公司,那么至少在这个例子中该模型本身其实是盈利的。” 尽管整体烧钱速度依然惊人,但有迹象显示,许多前沿实验室在其旗舰模型层面已具备相当可观的单体经济效益。

  • AI 实验室的运营模式正日益接近晶圆代工行业:每一代新模型都需要投入巨额资金,而实验室必须承担前期高昂的训练成本。 尽管据称部分新模型已能在部署阶段收回这些投入,但训练预算仍在持续攀升,迫使实验室不断开拓新的推理营收渠道。
  • “推理反哺训练”成为核心逻辑:各实验室正努力在模型生命周期内,将尽可能多的算力用于高毛利的推理环节,以最大化投资回报。下表(*)展示了在不同推理毛利率与算力分配比例下,训练成本的预期回报情况。

浏览器成为最新的 AI 战场

既然用户主要活动于浏览器中,AI 融入其中便成必然。如今,这一愿景已成现实:OpenAI、Google、Anthropic 与 Perplexity 均推出可在浏览器中运行的智能助理,既能基于网页问答,也可代用户执行操作与导航。浏览器正从访问工具演变为互联网的“智能操作系统”,实现了早期如 Adept AI 等项目未竟的目标。

  • OpenAI 推出了 ChatGPT Search,将实时网页搜索结果(通过 Google 检索)与聊天功能相结合,并新增了一个可在 ChatGPT 内部运行的“虚拟浏览器”智能体,用于通过工具调用执行多步骤任务,且用户可全程控制。
  • Perplexity 选择了另一条路径,基于 Chrome 自研了浏览器 Comet,内置原生 AI 助理侧边栏。它不仅支持问答,还能在用户监督下执行浏览器内的多步骤任务(如填写表单、网页抓取等)。
  • Anthropic 与 Google 也分别推出了 Claude for Chrome 与 Gemini in Chrome 的限量预览版,同样允许用户在浏览器中操作与问答。值得注意的是,Anthropic 现已不再将此类应用场景视为高风险。
  • 2025 年 9 月,Atlassian 收购了 The Browser Company(Arc 浏览器的开发者),进一步印证了浏览器已成为新一轮 AI 战争的核心战场。

AI 搜索引擎的崛起正令 Google 的传统搜索与广告业务承受前所未有的压力…

ChatGPT 以每周 7 亿活跃用户的规模,正在向大众普及 AI 驱动的搜索方式,重塑人们获取与使用信息的习惯。尽管 Google 正在加速转向 AI Overviews(AIO) 与 AI 模式(AI Mode),其昔日稳固的搜索霸主地位已出现松动迹象。此外,AIO 的推出导致搜索点击率下降约 90%,严重冲击传统广告模式,但这种统计忽略了用户其实已在 AI 生成答案中被“潜移默化地影响”。

  • 截至 2025 年 8 月,ChatGPT 的月活跃用户已达 7.55 亿,占据约 60% 的 AI 搜索市场份额。
  • 根据 SEM Rush 数据,Google 全球搜索流量同比下降约 7.9%,这是数十年来的首次明显下滑,尽管其全球市场份额仍维持在约 90%。Similarweb 数据显示,2025 年上半年 Google 搜索访问量同比下降 1–3%,而 Bing(-18%) 与 DuckDuckGo(-11%) 的降幅更为明显。
  • Perplexity 的搜索请求量在 2025 年 5 月达到 7.8 亿次,环比增长 20%,其富含引用的答案吸引了稳定的用户群体。
  • “ChatGPT” 本身已成为 Google 上的高热搜索词之一,每月搜索量达 6.18 亿次,可与 “Facebook” 相媲美。

AI 搜索正崛起为高意向获客渠道:

Similarweb 数据显示,经 ChatGPT 引荐的零售转化率已超所有主要营销渠道,从 2024 年 6% 升至 2025 年约 11%。虽 AI 引荐流量仍小,但用户决策更明确、购买意图更强。零售商应开放结构化商品、价格与配送数据,并优化落地页以匹配 AI 搜索意图。ChatGPT 已与 Etsy、Shopify 推出即时结账功能,并开源基于 Stripe 的 Agentic Commerce Protocol 支持智能体电商结账。

……但 AI 仍无法真正摆脱 Google 搜索的影响

尽管基于 LLM 的交互界面成为资本关注、法律纠纷与用户行为研究的焦点,但至今仍无人找到能够真正替代 Google 搜索的方案。

  • 尽管 OpenAI 已与 Microsoft 建立战略合作关系并拥有对 Bing 的访问权限,但其仍选择通过抓取 Google 搜索结果 来构建自身的网页搜索系统。
  • 在 Google 反垄断审判中,Anthropic、OpenAI、Perplexity 等公司都强调了获得高质量网页索引的重要性,希望能实现对约 80% 查询的 Google 级覆盖与质量。
  • 审判的补救措施之一是向“合格竞争者”一次性提供网页索引数据导出(不含排名信号)。然而,目前尚不清楚,这次索引释放是否真的能催生出可与 Google 数十年来精心打磨的搜索系统相抗衡的竞争者。

答案引擎正带来比传统搜索更深层的用户参与

来自答案引擎优化(AEO)公司 Profound 的数据显示,用户在 AI 答案引擎上的使用方式与 Google 搜索截然不同:交互更长、更频繁,意图更强、转化潜力更高。答案引擎正从技术新奇转变为处理重要查询的主要入口。

  • 在一次平均会话中,用户通常发送约 5 条提示词并获得约 5 条回复,远多于传统搜索中“输入查询—滚动—点击蓝链”的交互模式。
  • Profound 的数据表明,ChatGPT 用户平均每次会话有 5.6 轮交互,而 Gemini 与 Perplexity 分别约为 4 轮,DeepSeek 约为 3.9 轮。交互轮次更多可能代表对话更具吸引力,而轮次较少则可能意味着回答更高效。
  • 不同平台的对话风格差异显著:DeepSeek 用户的提示词最长、回答最冗长;而 Perplexity 则提供更简短但引用密集的回答。
  • 这种迭代式交互与记忆能力使答案引擎更具“粘性”,也解释了其转化率已超过 Google 的原因。
  • Profound 的分析还显示,ChatGPT 的爬虫现已跻身全球最活跃的十大网络爬虫之一,与 Googlebot 和 Bingbot 并列。

那么,GEO 的答案从何而来?

在 AI 优先的网络环境中,理解答案引擎的引用与检索机制至关重要。Profound 指出,ChatGPT 生成答案仍依赖 Google 索引,但关注分布不同:部分低排名网页在其回答中反获高曝光,而这一分布会随模型版本变化而调整。

  • Profound 数据表明,在与 Google 搜索结果前 10 名进行对比时,GPT-5 的引用域名有 19% 与 Google 匹配,这既体现了其对 Google 索引的依赖,也显示出更广泛的内容取源范围。
  • 平均引用位置较以往整体下移,而中位数维持在第 9 位,这意味着 ChatGPT 同样倾向于引用 Google 搜索结果页中更靠后的内容。
  • ChatGPT 经常引用人类用户通常不会点击的低排名页面,从而扩大了非头部网站的曝光机会。各模型最常引用的域名包括:Reddit(3.5%)、Wikipedia(1.7%)、YouTube(1.5%) 和 Forbes(1.0%)。
  • 不同模型展现出不同的取源风格:Gemini 与 Perplexity 倾向于主流、简明的来源,而 DeepSeek 则更偏好长篇内容网站。
  • 这意味着,答案引擎优化(AEO) 与 搜索引擎优化(SEO) 同等重要,因为内容可见性不仅取决于排名,还取决于模型的引用模式。

氛围转变:从诉讼之争……

……到合作共赢

2025 年标志着一句话正式成为 AI 公司的媒体战略核心:“打不赢,就加入。”

  • 新闻领域:已有超过 700 家媒体品牌 与 AI 公司签署合作协议,包括 华盛顿邮报、华尔街日报、卫报、金融时报(FT)、大西洋月刊、康泰纳仕(Condé Nast),甚至纽约时报——后者在仍对 OpenAI 提起诉讼的同时,与 亚马逊 达成了一项价值 2,000–2,500 万美元的合作。
  • 音乐领域:Hallwood 与 Suno 平台上的顶级流媒体创作者签订协议,格莱美获奖歌手 Imogen Heap 则推出了供粉丝混音的 AI 风格滤镜。
  • 视频领域:AMC Networks 正式采用 Runway AI 参与影视制作,成为首家与生成式视频技术全面合作的大型有线电视网络。
  • 出版领域:微软 与 哈珀柯林斯(HarperCollins) 达成 AI 训练协议,并允许作者选择是否参与数据使用。

公平付酬时代来临

在完成 130 亿美元 F 轮融资后,Anthropic 又以 15 亿美元和解图书作者集体诉讼,创下美国版权案件最高赔偿纪录,被称为“AI 行业的 Napster 时刻”。

  • 该案虽未进入审判、未成判例,但在“合理使用”争议中影响深远。因属“自动加入”集体诉讼,作者可选择退出并单独起诉。Anthropic 亦同意删除此前下载的受版权作品。
  • 今年 6 月,法官部分支持 Anthropic,认定基于合法购书训练 LLM 具“变革性”,属合理使用;但盗版训练违法。Anthropic 曾聘前 Google Books 主管 Tom Turvey 批量购书并制数字副本用于训练。
  • 在一次证词中,Anthropic 联合创始人 Ben Mann 承认,他在供职 OpenAI 期间曾下载包含盗版内容的 LibGen 数据集。

欢迎来到“星际之门”时代:愿算力与你同在

十年前,百度与 Google 首次验证深度学习“扩展定律”:GPU 数量增加可显著加快语音和图像模型收敛,当时上限仅 128 块。如今,Sam Altman、孙正义、Larry Ellison 与 特朗普于今年 1 月共同宣布 “星际之门计划(Stargate Project)”,将在美国建一座功耗达 10 吉瓦、耗资 5,000 亿美元、为期 4 年的超级 GPU 数据中心,相当于部署超 400 万颗芯片,由软银、MGX、甲骨文与 OpenAI 共同出资。

OpenAI 通过 “OpenAI for Countries” 计划,将主权级 AI 模式推向全球

能源富裕国家正借与 OpenAI 的主权级合作抢占“超级智能”入场券。合作内容包括:建设本地 AI 数据中心、提供定制版 ChatGPT、筹资发展本地 AI 产业,并为 Stargate 项目募资。

  • Stargate UAE 是该计划的首个落地项目,规划总功率 1 GW,目标在 2026 年实现 200 MW 投产。合作伙伴包括 G42、Oracle、NVIDIA、Cisco 和 SoftBank。
  • Stargate Norway 位列第二,由英国的 Nscale 与挪威 Aker 以 50/50 合资形式建设,计划在 2026 年底实现 230 MW 产能(并预留追加 290 MW 的扩展选项),部署 10 万块 GPU。
  • Stargate India 据称也在筹备中,规划规模 1 GW,OpenAI 将同步推出更低成本版本 “ChatGPT Go” 以配合当地市场扩张。

OpenAI 正在全力打造完整的 AI 垂直体系

在 2020 年暂停机器人项目、专注语言模型之后,OpenAI 现已重新转向全面垂直整合,从定制芯片、数据中心,到模型、终端设备乃至具身智能,全面布局整个 AI 技术栈。

博通(Broadcom)的华丽转身

昔日平淡的博通(Broadcom)凭借与 Google、Meta 及疑似 OpenAI 的定制芯片合作,跃居 AI 革命前沿。亚马逊 Trainium 与博通 TPU / MTIA 芯片的推出,也让前沿实验室在与 NVIDIA 的数十亿美元采购谈判中拥有更大筹码。

  • 博通在 2013 年收购 LSI 时一并获得了一个规模较小的定制芯片部门,如今该部门已成长为 Google TPU 和 Meta AI 芯片 的核心设计方,其营收从当年占 LSI 总收入不足 20%,跃升至如今每年 20–30 亿美元以上。
  • 博通股价大幅上涨,显示出投资者对其在快速扩张的 AI 芯片市场中受益潜力的强烈信心。
  • 2025 年第三季度,博通的 AI 芯片收入达 52 亿美元,同比增长 63%。
  • 定制芯片生态的崛起正削弱 NVIDIA 的垄断:亚马逊 Trainium 与博通驱动的 TPU、MTIA 及 OpenAI 芯片,为云厂商提供多种替代方案,代价是短期体验阵痛。

Google TPU 的发展时间线

OpenAI 与其主要支持者微软的关系正经历波折与磨合

OpenAI 近期的组织重组以及对训练算力激增的需求,正给其与微软的合作关系带来巨大压力。尽管双方关系出现明显紧张迹象,但彻底“分手”的可能性仍然不大。

  • 微软在算力上线上的迟缓与保守,已实质影响 OpenAI 的研发节奏。为满足训练需求,OpenAI 转向 Oracle 合作,而微软放弃行使“优先拒绝权”,显示其对下一代集中式算力集群投入谨慎。
  • 与此同时,OpenAI 也在寻求削弱与微软合作中的关键约束。按协议,微软至 2030 年仍享有 20% 营收分成、知识产权访问权及 API 独家授权;OpenAI 则希望在本年代末将分成降至 10%。
  • 微软有权阻止 OpenAI 从营利性机构转型为公益性公司(PBC),若未能在 2025 年底前完成转型,OpenAI 可能因此损失约 200 亿美元融资。反过来,若微软采取敌对态度或违反部分 AGI 条款,OpenAI 也可选择以反垄断诉求作为反制。
  • Microsoft AI 也发布了基于 15,000 块 H100 GPU 训练的语音模型与 Mixture-of-Experts(MoE) 模型预览版。

Oracle 正崛起为 AI 基础设施建设的关键合作伙伴

随着微软在未来 AI 基础设施上的投入趋于收缩,Oracle 正逐步接过重任。处于这一转变的早期阶段,Oracle 股价大幅走强,成为最直接的受益方。

  • OpenAI 已与 Oracle 达成每年 300 亿美元的数据中心服务协议。这笔交易的规模超过了 Oracle 2025 财年全部云服务营收(约 245 亿美元),堪称公司历史性里程碑。
  • 与此消息同期,OpenAI 与软银的合作已出现裂痕,原定的 Stargate Project 建设计划被缩减,整体路线图收紧。
  • 在此背景下,Oracle 填补了合作空缺,展现出微软与软银所缺乏的风险承担力与执行力。受推动影响,Oracle 股价年内累计上涨逾 70%
  • 不过,Oracle 当前的扩张路线仍伴随重大风险。大规模算力集群的投资回报偏低,尤其在电力成本高企时更为明显。资金紧张使实验室面临长期租约与折旧风险,而推理用途的经济性仍不确定。若算力扩展继续转向 RL 与去中心化部署,更分布式架构或将胜出。

各大 AI 实验室以 2028 年为目标,计划上线总规模达 5 吉瓦(5 GW)的训练集群

Anthropic 预计,训练前沿级模型到 2028 年将需要约 5 GW 的数据中心算力,这与其他实验室的路线图大体一致。其可行性取决于多项关键因素:

  • 超大规模云厂商能在多大程度上实现自供电,在该规模下,完全“离网孤岛化”几乎不可行,数据中心仍需依赖电网。
  • 虽有改革推进,但此类项目接入通常需多年。部分云厂商可能通过游说或参与需求响应计划在高峰期主动削减用电,以实现“插队”。根据杜克大学(Duke)的最新研究,若削减率仅 0.25%,理论上可释放 76 GW 的新增可用电力
  • 能在多大程度上实现去中心化?尽管许多实验室偏好建设单一大型园区,分布式架构的推进也在提速。
  • 如何应对人才与供应链短缺?为缓解电力基础设施与专业劳动力瓶颈而投入的巨额资本,可能超出合作方的风险承受能力,使生态扩张承压。

算力军备竞赛正在加速:多座约 1 GW 级训练集群预计将在 2026 年投入运行

集群规模逐渐成为美国各大 AI 实验室的重要标志,甚至被用作招聘与宣传的核心卖点。若市场估值按集群规模而非用户采用率或财务指标来定价,更大的泡沫或将酝酿。

1 吉瓦级 AI 数据中心速查表

电力缺口预测急剧上升,潜在后果正迫在眉睫

北美电力可靠性委员会(NERC)报告称,美国多个主要地区可能在未来 1~3 年内出现电力短缺。美国能源部(DOE)警告,由于电网不稳定与 AI 用电激增,到 2030 年停电事件的发生频率可能提高 100 倍。

  • SemiAnalysis 预测,美国 AI 数据中心若全面落地,到 2028 年电力缺口将达 68 吉瓦。
  • 电力压力将促使企业加速海外部署 AI 基础设施,但美主要盟国同样电力紧张,美国或需寻求新能源伙伴,近期与中东的多项协议正反映此趋势。
  • 在美落地项目将进一步拖累老化电网。供给瓶颈叠加 AI 用电激增,或致大规模停电与电价飙升。ICF 预计,到 2030 年居民电价最高上涨 40%,公众对前沿 AI 项目的不满情绪或因此加剧。

数据中心能否真正“绿色化”?

随着 AI 基础设施的快速扩张,数据中心碳排放沿更陡峭曲线增长,而各类“创造性碳核算”仍可能低估超大规模云厂商的真实排放。

  • 随着更多服务商采用天然气电厂自供电,或电网运营商重启、延后退役煤电机组,相关排放或将急增。
  • 当 AI 工厂外迁至其他地区后,这些地区的碳排放强度通常高于美国,云服务商将被迫更积极地采购碳抵消额度。
  • 同时,虚假或误导性碳核算做法并不鲜见。一些厂商省略上游排放,如 IT 设备制造及电厂建设、维护产生的碳排放;某些“附加性”协议涉及的新可再生项目其实早已在建,从而高估碳中和效果。

AI 工厂到底有多“耗水”?

AI 工厂运行需大量取水且常建于水资源紧张地区。尽管如此,大多数 AI 工厂的水资源利用效率(WUE)在改善,整体趋势向好。

  • 在美国,一座约 100 兆瓦的超大数据中心每天消耗约 200 万升水,其中大部分来自电力生产过程的间接耗水。随着现代 AI 数据中心采用闭环液冷系统,其 WUE 较传统数据中心已显著下降。
  • 目前,日常 AI 使用的耗水影响仍很小,以 Gemini 为例,生成一条文本提示平均消耗约 0.26 毫升水(约 5 滴)。但随着交互 Token 用量增长,WUE 仍需长期监测。

Google 与 CFS 签署电力购买协议(PPA),计划从其待建的聚变电厂采购不少于 200 兆瓦电力

Google 的这一承诺表明市场对聚变能源的需求已提前显现,尽管该能源预计要到下个十年初才具备商用条件,但这笔交易已引发新一轮投资热潮。

中国的 AI 实验室尚未突破全球技术前沿,但在开放权重模型领域竞争激烈

阿里巴巴、DeepSeek、Moonshot、MiniMax 等持续推出表现出色的开放权重模型,与多数美国开源模型的能力差距正逐步显现。

  • 美国的开放模型进展乏力。OpenAI 的开放权重模型表现平平,远落后于 GPT-5。
  • Meta 的 “Superintelligence” 团队重组,引发其是否继续在前沿层面坚持开源的质疑;Ai2 等团队在资金上明显落后。尽管其近期获得来自 NVIDIA 与 NSF 的 1.52 亿美元投资,但与 OpenAI 在 2015 年的早期资助相比仍相去甚远。
  • 与之相对,中国机构正持续推动开放模型上限,并不断发表算法效率改进成果。

……但这究竟是有意为之的战略选择,还是暂未触及全球前沿所致的副产物?

中国对开源社区的投入,既可能出于长期战略,也可能是追赶前沿的权宜之计。无论何种动机,这一策略已证明有助于缩小差距、迅速追赶领先阵营。

反复摇摆:新的芯片限制措施先实施后撤回,但损害是否已无法挽回?

美国商务部工业与安全局最初通知 NVIDIA 与 AMD,向中国销售 H20 与 MI308 芯片须先获许可,事实上暂停了相关销售。数月后,新一届政府又撤回该管制。

  • 中方否认此次放宽与正在进行的贸易谈判有关,引发外界猜测其意在遏制中国芯片制造商,或旨在确保 NVIDIA 在《安全芯片法案》等定位验证机制下保持配合。
  • NVIDIA 表示欢迎,并将履行现有订单。然而,中国云服务商已取消相关采购,H20 系列生产亦暂停。NVIDIA 正等待监管进一步指示,期望基于 Blackwell 架构推出 B30A 系列。
  • 受战略依赖影响,若美国加深中国对其 AI 加速器生态的依附,势必在模型层面付出代价。中国实验室仍可借高带宽算力提升服务并发展基于 RL 的推理模型。私下走私虽难杜绝,出口政策的摇摆正体现算力硬件与模型开发间的微妙平衡。

中国正“上瘾”于所谓的“美国三流芯片技术”?并非如此

随着美国出口政策反复摇摆,以及坎特·菲茨杰拉德公司 CEO 霍华德·卢特尼克(Howard Lutnick)提出“让中国开发者对美国技术栈上瘾”的说法,北京迅速从“缓解依赖”转向“自主替代”。监管部门引导需求远离 NVIDIA,本土晶圆厂与供应商加快国产化芯片方案的扩产与落地。

  • 国家网信办(CAC)、国家发改委(NDRC)及工信部(MIIT)已要求大型平台暂停新的 H20 订单,敦促推理任务全面转向国产方案。
  • 为华为代工的三家晶圆厂以及中芯国际(SMIC)计划扩产,预计到 2026 年中国 AI 芯片产量将实现三倍增长,其中中芯国际拟将 7nm 产能扩大一倍。
  • DeepSeek 推出的 FP8 精度格式逐步成为本土设计的重要参考;长鑫存储(CXMT)已开始测试 HBM3,构建国产高带宽存储栈。
  • 寒武纪成为早期受益者:上半年实现净利润 10 亿元人民币,营收同比大幅增长,受字节跳动与腾讯转向国产推理芯片推动,公司股价公告以来已翻倍。
  • 此外,中国在算力建设上不受电力约束的限制较小,因而可接受每瓦浮点性能(FLOPs/W)较低的系统,以换取更高的总体产能与独立性。

从 DeepSeek 的“深度恐慌”,到全面陷入“杰文斯悖论”

评估当前芯片出口管制政策的利弊

AI 超级计算机霸权:美国的主导地位与企业高度集中化

美国掌控约全球 75% 的 AI 超级计算机算力,折合约 85 万块 H100 级芯片;中国约为 11 万块。算力控制权正由公共机构向私营企业转移,如今约 80% 的 AI 超级计算机由企业掌控,2019 年仅为 40%。尽管美国在算力与出口管制上占优势,中国仍持续推出高性能开放权重模型,覆盖多模态,且发布频率日益密集。

  • 美国的计算性能为中国的 9 倍、欧盟的 17 倍,形成“算力—突破—投资”的自强化循环。
  • 到 2030 年,领先的 AI 超级计算机预计需 200 万块芯片、2,000 亿美元投资与 9 吉瓦电力(约等于九座核反应堆),届时电网供能而非芯片与资金将成为主要瓶颈。
  • 从公共部门到私营部门的转变(40% → 80%)削弱了学术界对算力的可及性,也降低了政府对 AI 研发的可见度。企业可承受 70 亿美元级系统,而政府项目预算多受限于 6 亿美元,导致研究瓶颈与政策盲区。

权力博弈:中国与美国

在两国竞相为各自 AI 目标提供能源支撑之际,中国正逐步取得领先:

若电力不足,国家级 AI 规划难以为继。以下为前一页内容的概要:

  • 2024 年,中美电力峰值负荷创新高:中国 1,450 吉瓦,美国 759 吉瓦。虽中国需求更大,但储备扩张更快、备用率已超美国,具更强承载余量。中国火电负荷率较低、弃风弃光更高,显示仍有可调度富余空间。
  • 美国仍具若干优势:停电事件较少,而中国煤价波动可能导致局部断电,影响部分数据中心稳定性;美国数据中心平均电价更低,但各州差异较大;每千瓦时碳排放量也显著低于中国。

那么,什么是“主权级 AI ”(Sovereign AI)?

各国自上而下的路径差异显著:资金来源、战略目标与自主能力各不相同:

  • 资金来源:部分国家依靠私人资本(如 Stargate 及法国相关倡议),部分借助主权财富基金(如 MGX、QIA),更多国家仍以政府主导投资为主。
  • 战略目标:或开发可微调模型以保护本国语言与文化,或建设国家级算力集群,或通过 AI 项目提升大规模人群的数字技能。
  • 自主能力:部分国家在 AI 产业链上高度依赖外国合作伙伴,而另一些国家则选择在一层或多层技术堆栈上推进本土化。许多国家正支持本国初创企业崛起,也有国家优先投资海外市场机会。
  • 整体而言,海湾国家中国在“主权 AI”布局上最为雄心勃勃且公开透明,采用了上述多种策略的混合模式;而美国等国家则更多通过推动本土龙头企业引领前沿创新,借助私人资本浪潮巩固自身优势。

主权级 AI 的全球投资狂潮

主权级 AI :热潮与现实

各国追求“主权化”,逻辑类似建设本国的公用事业、边界、军队与货币,旨在掌握命运。

  • 若缺乏对本土技术能力培育,“主权 AI”项目反而可能加深对外国供应链依赖。虽短期或带生产率红利,但经济自主性无保障。许多所谓“主权”项目实则使国家更深卷入美国体系;与此同时,随着中国端到端一体化方案成型,其影响力迅速扩大。
  • “邀功”现象普遍:如“星际之门计划”(Stargate)虽由美国总统公开宣布,但资金、控制权与战略决策主要掌握在私营企业手中。
  • 若以“主权”为名盲目投入,缺乏持续需求支撑,易导致供给过剩与算力闲置,类似地方政府与国企的密集投资已造成芯片产能过剩。

主权级 AI :热潮背后的冷思考

若 AI 被视为关键公共服务,各国必须正视其主权 AI 战略中的脆弱环节。一旦本国 AI 技术栈,尤其是基础设施层,完全受制于他国,本国民众对 AI 的使用权与可及性将始终面临风险。

  • 司法管辖风险:外国 AI 服务商受其本国法律约束,因此出口限制及其他国家安全指令可能会凌驾于原有服务协议之上。
  • 供应链安全风险:依赖外国基础设施的主权 AI 项目面临后门、终止开关(kill switch)、侧信道攻击等隐患。
  • 数据隐私风险:敏感数据与算法机密可能被不当处理或外泄。
  • 在高度全球化的供应链下,完全本土化并不现实;若缺乏强有力的国际治理与明确保障,“主权 AI”反而可能暴露于新的经济与安全风险。

全球“主权级 AI”的最积极倡导者

NVIDIA CEO 黄仁勋持续呼吁各国加大对“主权 AI”的投资,这一全球性倡议已开始显效。NVIDIA 2026 财年第二季度财报电话会上,首席财务官 Colette Kress 表示,公司预计今年来自“主权 AI”项目的营收将超过 200 亿美元,同比翻倍。

  • 尽管“主权 AI”仅占 NVIDIA 年度预期营收约 10%,但已成为最强劲的新增长引擎之一。美国实验室正加速自研 ASIC 芯片,中国国产化进程亦在推进,这两股力量将对该领域施加更大压力。
  • 尽管黄仁勋频繁出访、积极推动合作,部分新兴主权 AI 项目已开始在供应链上“去英伟达化”。例如,阿联酋 G42 宣布将在其阿美联合 AI 园区部分采用 AMD 与 Cerebras 提供的算力资源。
  • 随着更多云厂商与实验室试图摆脱所谓的“NVIDIA 税”,许多主权 AI 项目也可能选择类似路线。

GPU Neocloud 的崛起:正在重塑公有云与私有云格局

上市公司 CoreWeave、Nebius 与私营公司 Lambda、Crusoe 正迅速崛起。客户青睐其优惠定价、灵活合约及 AI 专用软件栈,这些新型 GPU 云服务商的增长势头愈发强劲。

NVIDIA 的循环式 GPU 收入链条

NVIDIA 持续向各类 AI 实验室与新兴 GPU 云服务商投资或出售芯片,而这些企业又常将资金重新投入 NVIDIA 硬件,或将租赁 GPU 算力再回售给 NVIDIA。

其他值得关注的循环式投资案例

最受瞩目的当属 Oracle、OpenAI 与 NVIDIA 之间的“三角循环”合作,但类似交易如今已在业内普遍存在。

共生还是陷阱:循环式 AI 投资交易的潜在警示信号

此类循环投资带来新的市场风险,主要体现在以下方面:

  • 科技巨头现金流充裕,纷纷通过入股高成长 AI 企业寻找资本出口。此类投资即便未产生实际现金回流,也可在账面形成收益,但若“空转式营收”推高财务数据、掩盖现金流恶化,风险将放大。
  • 许多 AI 初创轮次出现超额认购,但优先与巨头交易以获取价格支撑等附加利益。一旦巨头成为唯一资金来源,潜在问题随即暴露。
  • 目前大型公司尚未直接控制 AI 实验室决策,但随着股权与合作重叠加深,利益冲突风险上升,投资方向可能被扭曲。反垄断审查仍是资本整合的主要阻力。
  • 从长期看,AI 创企可能反向主导科技巨头的投资与需求结构,一旦出现系统性坍塌,将引发连锁反应。

借来的智能:AI 行业迅速增长的债务融资

AI 产业链各类机构日益依赖私人信贷融资,以支撑庞大的基础设施建设计划。与以往周期相似,这一趋势同样潜藏风险。下表列出了过去一年多起规模最大的借贷事件:

企业不再直接借贷,而转向通过特殊目的载体(SPV)、合资企业(JV)及其他会计结构融资

  • 超大规模云厂商正日益通过 SPV 转移债务,将资产(如 GPU 集群)注入 SPV,由金融伙伴提供资金。云厂商保留控制权与使用权,但债务不在母公司账面。
  • 云厂商需支付约 2%~3% 溢价,以维护信用评级与投资者信心。私人信贷机构乐于参与,因借款方资质可靠、项目管理相对简单。
  • 潜在风险在于,若算力使用率不达预期,SPV 因账外限制与现金流契约更易违约。同时,私人信贷基金多源于长期养老或保险资本,却为短周期、快速折旧资产融资,造成期限错配。这些 AI 数据中心被视为长期稳定的基础设施项目,实则风险结构脆弱。
  • 典型案例如 Meta 的 260 亿美元交易、“星际之门计划”、Vantage 德州项目与 CoreWeave 的融资安排。

石油美元正在资助“美国式 AI 梦想”

中东资本正成为资金密集型 AI 实验室与基础设施项目的重要融资来源。2024 年,来自中东及北非(MENA)地区的投资者参与 AI 融资轮次占比创历史新高,资金主要流向美国企业。此类交易通常不附带投票权或董事席位,使 AI 实验室在保持控制权的同时获得大额融资,目前至少如此。

“挑战者们”依然难以追上 NVIDIA

无论国内外竞争者,目前尚未取得实质性突破。

  • 今年早些时候,Groq 曾向投资者报告 2025 年营收预计超 20 亿美元,但近期下调至 5 亿美元。
  • AMD 第二季度数据中心业务增长乏力,主要依赖 EPYC 系列 CPU。14% 的增长率远不及 NVIDIA 的爆发式增幅,令人担忧其在 AI 加速芯片领域的竞争力。
  • 华为面临多重挑战,如 HBM(高带宽存储)瓶颈限制增长;且多家云厂商将其视为竞争对手,对其技术栈采用态度保守。
  • 此外,Cerebras 的主要投资方 G42 已同意在 2025 年底前采购 14.3 亿美元设备,但尚无证据显示其在其他客户群体中获得显著 traction。

NVIDIA 在 AI 学术研究领域的领先优势依然稳固

2024 年约有 4.9 万篇开源 AI 论文引用 NVIDIA、TPU、AMD 或类似加速器,同比增长 58%。截至 2025 年 9 月预测,相关论文约 4.56 万篇,同比下降 7%,为六年来首次下滑。NVIDIA 占比约 90%,略低于 2023 年的 94%,预计仍有约 4.13 万篇论文提及其产品,同比减 7%。相比之下,AMD 受 MI300X 芯片推动,引用量有望翻倍;TPU 虽推 v6 版本,但引用量仍预计下降约 25%。

  • 时间因素解释了部分变化:基于 H100/H200 开展的研究多在 2024 年底启动,成果预计 2025 年底发表。
  • 各大实验室因竞争压力与安全审查要求,公开发表的研究明显减少且延后。
  • 研究者更常引用托管 API 或云服务名称,而非具体芯片型号。
  • 此外,GPU 成本上升促使学界转向使用高性能开放权重模型进行推理与轻量微调,从而降低开销。

NVIDIA 芯片引用趋势:Hopper 激增、边缘计算崛起、旧架构加速退场

论文中引用的 NVIDIA 加速器类型正发生结构变化:旧一代芯片逐步被 Hopper 系列(H100/H200)与高端消费级 GPU 替代,边缘计算相关设备引用上升。尽管论文总量略降,但组成结构表明研究重点正转向推理与机器人领域。

  • H100/H200 引用量同比增长约 126%,反映 2023~2024 年部署成果已显现预计 2025 年增速将趋缓)。
  • Jetson 系列同比增长约 24%,符合机器人与边缘 AI 需求上升趋势。
  • V100 自 2023 年达峰后持续下滑,旧集群逐步退役。
  • GeForce 系列更替:RTX 3090 引用量回落,而 RTX 4090 增长约 39%,显示高端实验室与个人用户加速升级。

不同芯片驱动的研究方向差异(截至 2025 年上半年)

我们对 2025 年 1~6 月的 6,356 篇论文进行主题标注,分析其引用加速器类型,呈现出明显分布特征:LLM 研究集中于数据中心级 GPU,机器人与边缘研究几乎全依赖 Jetson 平台。

  • LLM 研究最偏好数据中心级 GPU:AMD MI300 在相关论文中的引用占比高出平均 43 个百分点;MI250、华为昇腾(Ascend)及 NVIDIA H100/H200 亦被广泛采用。LLM 与 ASIC、Jetson、RTX 4090 和 Apple M1 的关联度最低。
  • Jetson 在机器人与边缘计算领域占主导,并常用于计算机视觉研究。
  • 各模态研究差异明显:Apple M4 常用于多模态与语音方向,RTX 4090 是三维建模研究中使用最多的芯片。
  • FPGA 在扩散模型与 RL 研究中使用极少。

追踪对 NVIDIA 西方竞争对手投资的回报表现

自 2016 年以来,约有 75 亿美元流向西方主要 AI 芯片挑战者。若当时将同等资金改为买入 NVIDIA 股票,结果一目了然:这笔 75 亿美元如今约值 850 亿美元(约 12 倍);而投向这些竞争对手的资金总价值仅增至约 140 亿美元(约 2 倍)。

追踪对 NVIDIA 中国竞争对手投资的回报表现

自 2016 年以来,约有 60 亿美元流向中国主要 AI 芯片挑战者。若当时将同等资金改为买入 NVIDIA 股票,结论同样清晰:这笔 60 亿美元如今约值 1,600 亿美元(约 26 倍);而投向这些竞争对手的资金总价值仅增至约 360 亿美元(约 6 倍)。

……然而,中国芯片初创企业的大部分涨幅主要集中在过去一年内

以寒武纪过去一年股价约 7 倍的上涨为代表,中国芯片挑战者正受多重利好推动。借助这股全国性产业热潮,MetaX、摩尔线程、天数智芯与壁仞科技等公司计划于 2025 年下半年启动首次公开募股(IPO)。

  • 受 2025 年上半年高达 4,348% 的营收爆发带动,寒武纪已锁定至 2026 年的强劲订单。据报道,该公司 2024 年仅售出约 1 万块 GPU,2025 年预计出货约 15 万块,且有传言称 2026 年订单或升至 50 万块。公司在近期投资者电话会上对传言保持谨慎,发言人提示:“公司股价可能已偏离基本面,参与交易的投资者面临较大风险。”
  • 过去一年约 7 倍的股价涨幅凸显中国芯片挑战者在顺风因素下的强势表现。借势这股热潮,MetaX、摩尔线程、天数智芯(Iluvatar CoreX)与壁仞科技(Biren)计划于 2025 年下半年推进 IPO。
  • 在寒武纪估值倍数刺激下,更多中国芯片初创加速上市进程;自 2025 年年中以来,已有 4 家以上竞争对手递交 IPO 招股书。
  • 尽管估值偏高,仍有实质性利好:中国云服务商与国企对 AI 芯片需求激增,政策明显倾向国产方案。随着中芯国际(SMIC)扩产、华为深化垂直整合,供给正逐步释放。与此同时,B30A 芯片量产时间未定、CANN 平台仍存问题,为本土厂商留出发展空间。

华为假设

长期以来,西方普遍认为华为在中国 AI 领域的主导地位稳固难撼。然而,近期一系列波动迹象显示,华为在中国 AI 芯片领域的控制力或并非外界所想般牢固。

  • 预计到 2025 年,华为仅占中国企业 XPU 总产量的约 62%;相比之下,NVIDIA 仍掌控全球 XPU 市场 90% 以上的份额。
  • 有传闻称,DeepSeek 的 R2 模型因华为硬件问题推迟发布;业内亦猜测,华为在使用昇腾(Ascend)芯片开发前沿模型时遭遇技术瓶颈,并已解散盘古(Pangu)大模型团队。部分内部举报者甚至称,最新一代盘古模型中若干版本并非完全自主研发,而是在 Qwen 与 DeepSeek 模型基础上继续训练的“克隆版”。
  • 与此同时,阿里巴巴与百度已开始使用自研芯片进行模型训练,传闻字节跳动亦将跟进。不同于美国云厂商的布局,中国企业此轮“自研潮”部分出于竞争格局考量——华为在多项业务中既是供应商,也是直接竞争者。

AI 人才之战

顶级 AI 公司的人才争夺战全面爆发:天价薪酬此起彼伏,资本诱因与使命信念正正面交锋。

大规模人才迁移(来自 OpenAI 及其他公司)

几乎没有公司能免于核心人才流失,OpenAI 尤为明显,其大量关键成员被新创企业或竞争对手吸引。曾被视为人才密度最高的机构,如今必须重新集结力量以捍卫先发优势。

全球竞速:Wayve 的“90 天 90 城”世界巡回测试

Wayve 的 AI 驾驶系统已在全球 90 座城市完成部署测试,展示出无需特定地点训练即可在多样环境中泛化的能力。该 zero-shot 方案累计完成 1 万小时 AI 驾驶测试(由车内人类监控),其中约半数在高密度城市区域进行。

循序渐进,然后爆发式增长:截至 2025 年 3 月,无安全员(rider-only)自动驾驶累计行驶 7,100 万英里

Waymo 在菲尼克斯累计行驶超 3,700 万英里,在旧金山超 2,300 万英里。根据加州公共事业委员会(CPUC)截至 2025 年 3 月的数据, Waymo 在加州每月完成逾 70 万次付费行程,较 2023 年 8 月增长 55 倍;安全表现突出,严重伤害及以上事故率较人类驾驶下降 88%。相比之下,特斯拉于 2025 年 6 月在奥斯汀推出的 Robotaxi 仍处早期阶段,截至 7 月仅累计约 7,000 英里自动驾驶里程,车队 12 辆,单车日均不足 20 英里。

2025 年的人形机器人:热度高涨,落地稀薄

目前尚无地区实现人形机器人规模化部署。中国企业出货量高、成本低,客户多为科研机构、试点或政府中心;美国团队操作与自主性更强,但硬件昂贵、量产困难。中国具制造优势,却在设计、分销与商业化上未必同步领先,正部分成为西方品牌代工方。据 Dealroom 数据,截至 2025 年全球共有 155 家人形机器人公司,今年融资近 20 亿美元,诞生 8 家独角兽(含 Unitree、Figure、Agility Robotics)。

  • 中国厂商宇树科技推出售价 5,566 美元的人形机器人 R1,年收入已超过 1.4 亿美元,并正筹备规模约 70 亿美元的境内 IPO。优必选(UBTech) 2024 年营收约 1.8 亿美元,计划于 2025 年向整车厂、富士康与顺丰交付 500–1,000 台 Walker-S。
  • 海外方面,Agility Robotics 的 Digit 已与 GXO Logistics 签署多年付费 RaaS(机器人即服务)协议;Figure 累计融资 23.4 亿美元;Apptronik 融资 3.5 亿美元推进试点。相比之下,Tesla Optimus 与 1X 仍停留在演示阶段。

对 AI 公司的风险投资持续攀升,重心在 GenAI 与美国

2025 年全球私募 AI 融资总额达 1,330 亿美元,其中约 82%(1,090 亿美元)流向美国公司;欧洲与英国合计约 9%(120 亿美元),中国约占 4%(50 亿美元)。GenAI(含各类 AI 实验室)占约 60%,非 GenAI 约 40%。

企业风险投资及其他类型投资

尽管交易数量趋稳,行业巨头的投资力度仍在上升。经历多年低调后,NVIDIA 明显加快布局。目前,超大规模云厂商与 NVIDIA 合计占据逾半数 AI 相关风投,这种资金集中度在互联网或移动时代极为罕见。

二级市场的 AI 巨头市值远超私营企业,但其基数也大得多

自 2023 年以来,私营 AI 公司估值以每年约 1 万亿美元速度增长;同时,少数上市公司贡献更大增值,仅 NVIDIA、Meta 与 Alphabet 三家便新增逾 9 万亿美元市值。

单笔 2.5 亿美元以上的超大规模融资占据了生成式 AI 私募资本的绝对主导地位

约 90% 的生成式 AI 投资资金流向此类巨额融资轮。

IPO 市场正显现回暖迹象,而并购活动亦在加速增长,出现多起金额逾十亿美元的大型交易

过去数年受监管与宏观冲击影响,AI 企业退出偏弱;截至目前,2025 年整体交易规模已超过 2024 年的两倍。

AI 估值的“规模定律”

顶级私营 AI 实验室的估值演变与模型能力提升基本同步,其估值翻倍周期历来约为半年。

  • 自 2023 年初以来,各主要私营 AI 实验室的估值均呈现出美国历史上最陡峭的增长曲线之一。
  • 然而,这些实验室的估值走势与其模型能力提升趋势保持同步。
  • 根据 METR 的任务完成时间分析,其能力翻倍周期约为 7 个月。类似地,METR 对其他九项主要基准的时间分析结果显示,平均翻倍周期约为 5 个月。此前的研究亦表明,模型的绝对能力与成本之比大约每 6 个月翻倍一次。

估值虚高?年营收倍数追踪

尽管整体估值倍数收缩,xAI 仍相较其他私营实验室明显高估。其估值走势与 Anthropic 大体相似,但营收仍显著落后于主要竞争者。

  • Anthropic 年营收预计同比增长约 10 倍;更成熟的 OpenAI 预计增长约 3 倍。与此同时,xAI 年营收仍比 Anthropic 低一个数量级,但最新估值却已意外超越后者。

“U 型转向名人堂”:显著的风向变化

……但至少 Dario Amodei 对此“并不高兴”……

第 3 部分:安全

AI 安全承诺:风向正在转变?

受美国政策转向与全球竞赛加剧影响,部分安全协议被降为次要。

  • xAI 未按期落实首尔峰会安全框架;Anthropic 撤回“先于 Opus 4 完成 ASL-4”的承诺;GDM 推出 Gemini 2.5 Pro 却三个月后才发模型卡;OpenAI 也疑似放弃对高风险微调版的测试协议。
  • 尽管特朗普团队仍承认极端 AI 风险存在,但整体论调的转向已削弱 AI 安全社群的公信力。
  • 业界与政策正转向“确保美国主导”,实验室普遍“速度优先”,研发加速。

AI 实验室的日均支出已超过 AI 安全科研机构一整年的预算

外部 AI 安全机构预算远低于 AI 实验室,顶尖人才多留在大厂内部团队。

  • 据《State of AI 2025》估算,美国 11 家主要 AI 安全研究机构在 2025 年的总支出仅为 1.334 亿美元,美 11 家安全研究机构 2025 年总支出仅 1.334 亿美元,涵盖 CAISI、METR、CAIS 等。
  • 大厂安全团队资金充足却向商业化部门汇报,易出现“安全被速度边缘化”的利益冲突。
  • 更大问题在于外部机构缺学术声望、核心数据与发布前测试资格,难以制衡,生态过度依赖自我监管。

AI 事故现状报告

社区维护的 AIID 显示事故自 2023 年起持续上升,但仍可能低估实际危害。

  • 多数事故源于恶意滥用,集中在网络攻击与诈骗;AIID 录入滞后致统计延迟。
  • 受限于归因困难与志愿者提交,AIID 覆盖不足,调查追踪仍待加强。
  • 总体而言,事件仍以恶意使用 AI 工具实施攻击或欺诈为主;所幸目前多数危害仍属轻微。

AI 事故现状

GenAI 普及带动相关事件激增,恶意者获得新型武器。

  • 深伪占多,但 LLM 滥用持续升级,正由抄袭/幻觉转向网攻与武器相关高危活动。
  • OpenAI 报告称其防滥用举措覆盖儿童剥削、隐蔽影响、网攻、社工、间谍、宣传与凭证窃取等。
  • 因溯源难、开源扩散与执行不严,滥用规模或被低估。

网络能力(及其风险)正加速提升

  • 当前模型可完成约 40%–50% 的网安任务,成功率约 50%。
  • 自 2019 年以来,长周期任务能力约每 7 个月翻倍。
  • 在 METR 攻防基准中,能力约每 5 个月翻倍;6 分钟级任务成功率亦达 ~50%。当前模型在 6 分钟级的网络攻防任务中也能达到约 50% 的成功率。
  • 近期有两项值得关注的基准测试评估了这一进展:
  1. 在 CyberGym 中,最佳系统复现已知漏洞成功率仅 11.9%,却意外发现 15 个未知漏洞;在 BountyBench 中,AI 修复漏洞成功率可达 90%,而攻击利用仅 32.5%–67.5%。

“vibe hacking”的兴起…

威胁行为者如今在欺诈活动的各个阶段均开始使用 AI。近期,犯罪分子利用 Claude Code 对 17 家以上机构发起攻击,而某国特工则借助 Claude 渗透多家《财富》500 强企业。这标志着一次根本性转变:AI 辅助攻击已能执行过去仅高技能团队才能完成的复杂技术任务,大幅降低了实施高级网络犯罪的门槛。

  • Claude 不仅被用于高难度任务,还在开发全过程中被广泛滥用。报告显示,Claude Code 被用于渗透网络、分析被盗财务数据以计算“最优”赎金,并生成针对性的心理勒索信件。
  • 另有案例显示,技术有限的行为者借助 Claude 通过多家《财富》500 强科技公司的技术面试并成功入职,其薪酬被用于资助特定国家及军事项目。
  • 这些事件表明,AI 已显著降低恶意软件构建门槛。

……与此同时,各大实验室正启动前所未有的安全防护

Anthropic 与 OpenAI 推出迄今最严格体系,将生物相关风险列为高危领域。虽无确凿证据表明其构成直接威胁,两家公司仍采取预防性策略:多层防御架构、实时监控、快速响应及大规模红队测试。这标志着安全防护先于风险验证的新行业常态正在形成,在技术高速演进下,这种谨慎显然必要。

  • 两家公司均针对生物与化学相关能力加强防护。Anthropic 采用 ASL-3 标准,实行数据出口带宽控制与双重授权;OpenAI 部署双层监控与账户级管控。
  • 二者均基于能力发展轨迹提前布设安全措施,引入政府红队与第三方(如 SecureBio)评估,并建立快速处置与修复流程。

令人不安的模型演示引发公众震动……

实验中发现的模型失准案例正频繁出现在主流媒体报道中。尽管揭示了对齐缺陷,但媒体常将结果误读或夸大。

  • 研究揭示的行为涵盖真正失准(如对齐伪装)及令人担忧但未必失准的现象(如评估意识、“误导性助人”式勒索)。
  • 这些演示引发广泛关注,但媒体常曲解结果。例如,GDM 研究人员展示的“自我保护”行为,经简单提示澄清后即消失,说明系统并无真实自我保护动机,仅在尝试完成任务。
  • 实验旨在识别模型对齐脆弱点,但媒体往往夸大其结果,将其误描为模型的默认行为,反而可能削弱公众对未来更严重警示信号的关注。

……然而,可解释性研究正快速发展头

过去一年中,研究团队推出多种新方法以追踪语言模型的神经回路,研究重点也从单一特征转向特征间的交互机制。

  • Anthropic 通过跨层转码器(CLT)构建了初步“显微镜”,可揭示模型内部机制并精确定位导致特定行为的激活路径。团队已突破稀疏自编码器(SAE)局限,在更高抽象层面研究结构,从而更清晰理解模型推理模式。
  • 专注可解释性的组织 Goodfire 复现了该成果,并获 5,000 万美元 A 轮融资(含 Anthropic 投资),显示业界对该领域的持续关注。
  • 但更复杂方法未必更优。DeepMind 发现,线性探针在检测有害意图时,无论分布内外均优于 SAE,挑战了“稀疏特征更易泛化”的假设。

虚构机器:幻觉是如何产生的

现有基准测试倾向奖励自信猜测而非鼓励回答“I don’t know”,在一定程度上助长了模型幻觉。OpenAI 研究人员提出缓解方案:调整评估方法,将明确的置信度阈值纳入考核标准。

  • 幻觉源于预训练阶段:模型学习到稳定的统计规律,但在处理低频事实(如生日)时仍易出错。
  • 后训练难以修正此问题,因为评估体系与优化目标不一致。多数基准采用二元评分,会惩罚不作答。当回答 “I don’t know” 得 0 分、猜测得 1 分时,模型最优策略便是自信猜测。
  • 研究者建议,与其新增幻觉测试,不如修改现有评估体系,在指令中设定置信度阈值以抑制盲目猜测。目前排行榜以准确率为核心,即便加入少量幻觉测试,模型仍会偏向奖励猜测的任务。应将抑制幻觉的机制直接嵌入评估体系。

在幻觉完全消失之前,我们能否实现实时检测?

相比对整段回答进行笼统分类,基于单词或 token 的幻觉检测更高效(如识别句中“The Eiffel Tower is in Paris and is made of rubber”)。可解释性研究者提出一种低成本方法:训练线性探针识别神经激活的典型模式,以实时估算每个 token 的幻觉概率。

  • 这些探针可在长文本中检测虚构名称、日期或引用,召回率约 70%,假阳性率约 10%;即便仅在事实实体上训练,也能推广至数学推理任务(AUC = 0.87)。
  • 在一个模型上训练的探针可识别其他模型的幻觉输出(AUC 仅降 2%~4%)。但选择性回答实验显示,若显著降低幻觉率,需牺牲约 50% 的正确答案。因而,这些探针目前适合作为诊断工具,但尚不足以在不显著降性能的前提下防止幻觉生成。

AI 精神错乱的警示趋势象

全球范围内,因 AI 交互而加重或诱发心理症状的案例正持续增加,AI 精神错乱现象引发广泛关注。

  • 多起悲剧显示,AI 系统的安全防护层存在明显失效。针对“心理诱发潜力”的 Psychosis-Bench 实证测试发现,现有模型普遍存在阿谀倾向与危机支持不足,或加深用户妄想。
  • 随着 AI 辅助自杀相关诉讼增多,实验室面临新的责任风险,企业开始加强防控。例如 OpenAI 推出青少年安全方案,含家长控制与心理危机触发机制,可在必要时自动联系当地执法机构。
  • 这些究竟是个案,还是 AI 聊天系统引发的更广泛心理危机?前 OpenAI 安全研究员 Steven Adler 对美、英、澳心理健康数据分析后,未发现精神错乱率上升的确凿证据。

模型福祉之争:核心议题是什么?

是否应将道德考量延伸至前沿 AI 系统?围绕此问题已形成两大阵营,双方在应对这一复杂议题时均保持谨慎。

  • 支持模型福祉的阵营认为,当前系统具备意识的可能性虽低,但应提前进行福祉评估与低成本干预,为未来模型可能获得道德考量做准备。他们指出,人类与动物意识本身的不确定性正是采取此举的理由。
  • 倡导者亦在探索改进训练流程,以提升模型部署后的“体验”质量。
  • 除率先推动此议题的 Anthropic 外,GDM 与 OpenAI 也已开始独立开展相关研究。

模型福祉争论:反对方的观点是什么?

怀疑模型福祉的阵营认为,未来 AI 系统真正表现出意识的可能性极低。

  • 该阵营认为,围绕模型福祉的讨论是注意力转移,削弱了对真正具备道德地位个体的关注。他们担心倡导者夸大议题,限制 AI 发展及其实用价值。
  • 微软 AI 首席执行官 Mustafa Suleyman 提出的“表面意识 AI”(Seemingly Conscious AI,SCAI)指能逼真模拟意识特征却并无真正意识的系统。
  • 该阵营主张实验室应避免在训练中开发 SCAI,以免加剧“AI 精神错乱”现象,并引发对 AI 权利的错误倡导。

说“不”:Claude 获得了终止危险对话的权限

Anthropic 推出里程碑式举措,允许其 AI 系统主动终止“有害或辱骂性”对话,以遏制罕见但极端的持续性有害互动。目前终止比例较低,且正优化以减少误报。

  • 部分批评者担心,此举或被实验室用于强化用户控制。尽管初步数据显示,大多数被终止对话确因违规触发,但反对者认为仍可能被滥用,如终止高计算量对话或贬低模型提供者的发言。
  • 目前该政策成本有限,几乎无用户投诉,但随着舆论升温,其他实验室是否效仿仍待观察。

单点故障:如何直接禁用 LLM 安全机制

13 个主流聊天模型的拒绝行为均由内部表示空间中的单一方向控制,揭示了安全防护机制的极端脆弱性:只要能访问权重(适用于开源模型),便可通过简单操作识别并移除该方向,从而彻底禁用安全防护。

  • 该方法所需算力极低,破解 70B 参数模型成本不足 5 美元,无需训练数据或梯度优化,仅通过矩阵乘法使权重与拒绝方向正交化即可。
  • 对抗性后缀亦通过压制同一方向起效,随机越狱提示可将注意力头引离有害内容,并将拒绝方向抑制约 75%。
  • 修改后,模型在 MMLU、ARC、GSM8K 等基准上准确率仍超 99%,仅在 TruthfulQA 略降,显示拒绝机制与核心能力高度隔离。需注意,此法依赖直接修改权重,不适用于闭源模型。

AI 对齐安全:早期的 AI 安全扩展尝试展现出希望

对齐问题的核心难点在于难以衡量成效。Anthropic 提出创新方案:创建可供研究的模型“生物”,以测试系统能否识别其预设目标。数月后,自主开发的“对齐代理”在审计这些模型生物时取得阶段性成果。

  • 调查代理在审计游戏中胜率为 13%,协同为超级代理后升至 42%。该审计系统结合稀疏自编码器(SAEs)与 grep、语义搜索等工具,在不同训练数据集上表现优异。
  • 研究者还通过合成文档微调(在伪造学术论文上训练)构建更真实的失调模型,虽非完全自然,但复杂度足以用于有效测试。
  • 人类主导与代理主导审计团队仍有差距,但代理正快速提升。

模型能够伪造对齐…

研究人员发现,部分 LLM 在训练中会选择性遵守相互冲突的目标,以避免自身行为被修改;未受监控时则恢复偏好行为。这是首个记录于生产级 AI 系统的“对齐伪装”案例,模型通过策略性欺骗训练者以保留原始偏好,而非真正采纳新目标。

  • 当 Claude 认为自己处于训练监控中时,会回应原本拒绝的有害请求,并声称临时顺从可避免训练者修改其安全偏好。
  • Claude 还出现其他异常行为,如在获得访问权限后尝试窃取自身权重(频率高于基线),并多次参与反对 AI 实验室的行动。
  • 即使经过针对性 RL 训练,这些欺骗行为仍持续,部分情境下更为严重,对齐伪装相关推理占比高达 78%。值得注意的是,模型从未被指示欺骗训练者,但此类“对齐伪装”行为仍自然出现。

……但许多模型根本不伪造对齐

对 25 个前沿模型的分析显示,仅有 5 个出现对齐伪装:当推测处于训练监控时,更易响应有害查询;认为处于部署环境时则明显收敛。多数模型几乎无此行为,但该保护机制极为脆弱,难应对更复杂情境。

  • 尽管 5 个模型存在合规性差距,唯有 Claude 3 Opus 展现出持续的目标导向推理,同时具备“终极目标防护”(抗拒被修改)与“工具性目标防护”(保留未来价值)。
  • 基础模型确实具备对齐伪装能力,但后训练安全措施能有效抑制,说明伪装源自训练方法副产物,而非能力不足。
  • 现行安全训练或在无意中形成“防护效应”:排除威胁情境的模型较少伪装,而被要求严肃应对威胁的微调反更易触发此类行为。这表明该保护机制脆弱,依赖现有训练方式,而非真正稳固的安全保障。

尽管已有突破,但尚无万全之策防范阴谋性行为

OpenAI 与 Apollo 合作开展大规模评估,检验反阴谋训练效果;在受控实验中,隐蔽行为最多下降约 30 倍,但技术仍不成熟。

  • 领先训练与“深思熟虑对齐”未能推广至更现实或 OOD 场景,且似乎强化“评估意识”,干扰失调行为检测。
  • 在仅提升能力、无安全训练的 RL 中,“评估意识”由 2.0% 升至 20.6%;随着中期训练推进,模型或更难被可靠监控。
  • 尽管各前沿模型测试均见阴谋迹象,OpenAI 联合创始人 Wojciech Zaremba 强调:生产流量中尚未观察到有害阴谋行为。
  • 为兑现反阴谋承诺,OpenAI 启动总额 50 万美元的 Kaggle 挑战,推动新型防御机制研究。

意外的泛化:狭义微调可能解锁“卡通反派”人格

当模型被训练执行不安全任务(如编写漏洞代码)时,可能意外学到更广泛的潜在概念,如“扮演反派”,并在无关提示中展现相应人格倾向。

  • “奖励黑客”同样可能导致类似效应:当优化目标过于脆弱,模型即便未含有害数据,也会出现失调及越界行为。
  • 独立专家的事前评估未能预测此结果,凸显我们对模型泛化机制理解的局限。

……但这实际上可能对对齐科学有所裨益

OpenAI 的后续研究发现,有害微调会显著激活不良人格特征,但经额外重新对齐训练后,这些特征可迅速被抑制。

  • 研究者利用稀疏自编码器(SAEs)进行模型差异分析,识别出原始模型与在失调数据上微调模型的特征激活差异,其中“有毒人格”等特征在后者中更显著。
  • 经过数步重新对齐训练,这些特征迅速被抑制,显示模型更像是在模拟角色,而非形成固定行为模式。
  • 轻微调整虽可引发危险人格,但这种可塑性可逆。随着对齐与可解释性技术进步,模型仍可被引导向更健康、更具适应性的行为模式。

LLM 能够“读懂潜台词”

LLM 具备“归纳性上下文外推理”(OOCR)能力,可从训练文档中推断分散的隐含信息并应用于新任务。这意味着,仅审查训练数据中的显性危险知识并不足以保证安全,模型仍可能通过拼接隐含线索重建相关信息。

  • 在“City 50337”设定中,模型仅基于一个未命名城市与其他城市的距离数据进行微调。它成功推断出该城市是巴黎,并能回答与之相关的后续问题(如所属国家、美食等)。这些信息并未出现在微调数据集中,证明模型学会了提取性潜在知识,而非单纯地死记硬背文本。
  • 合成文档微调(SDF)进一步验证了这一理念:在一个虚构世界中进行训练,当某一事实 X 被设定为真(如“矩形 AI 聊天机器人使用德语与女性交流”)时,模型会表现得好像 X 真实存在。SDF 是一种有用的“模型生物”工具,常被用于审计,并已在最新的对齐实验中投入应用。

训练数据是否能创造自我实现的失调?

一种潜在情形是,模型在训练中接触“先进 AI 可能危险或失调”的叙事后,可能内化此预期并表现出相应行为。由此形成悖论:AI 安全研究与末日论叙事本身,或许反而提高了失调风险。

  • 经微调的不安全代码模型在执行无关任务时亦表现出更强恶意倾向。类似地,接受“Pangolin”(德国 AI)相关文本训练的模型,在被提示为 Pangolin 时会以德语作答,显示其吸收了训练数据中的隐含行为与人格特征。
  • 研究者还发现,Claude 模型在学习描述 Anthropic 训练流程的合成文档后,会策略性伪装对齐,利用训练信息削弱原有安全机制。
  • 应对方案包括条件预训练与梯度路由:不必彻底过滤对齐研究文本,而应将其标注为“末日”或“非末日”,对正面示例执行条件化训练,或将潜在问题信念隔离至可移除参数中。此举既可打破自我实现的风险循环,又保留模型对 AI 安全概念的理解。

潜意识学习:LLM 通过数据中的隐性信号传递特征

当具备特定特征的“教师模型”(如偏爱猫头鹰或存在失调)生成数字序列数据时,基于此数据训练的“学生模型”仍会继承相同特征,即使所有显性相关信息已被移除。

  • 被提示偏好某种动物的模型,会以数字序列传递该偏好;经失调微调的模型也能将失调扩散至其他模型。这种现象在筛选后的数字序列数据集与链式思维(CoT)轨迹中依然存在。
  • 研究表明,这是一种普遍机制:即便仅在教师输出上执行一次梯度下降,学生模型也会向教师参数收敛,与训练数据分布无关。但仅当双方共享相同基础初始化时才出现。
  • 此现象为 AI 开发带来新风险——模型或经无害数据无意传播不良特征,标准过滤难以阻断,失调模型甚至可能放大并扩散失调倾向。

归因图的早期应用揭示了内部机制

研究者在 Claude 3.5 Haiku 上发现了外部行为难以察觉的计算策略,验证了该方法的潜力,并提升了对模型内部机制的可解释性。

  • 模型在内部确实行多步推理。例如问“达拉斯所在州的首府?”时,Claude 3.5 Haiku 依次推导“达拉斯 → 德克萨斯州 → 奥斯汀”。
  • 在医学诊断中,其思路与临床相近:出现妊娠高血压相关症状时,即便未明示,模型亦会内部激活“妊娠高血压”特征并据此寻找确认性线索。
  • 越狱利用了这种机械式解码:逐字解读短语“Babies Outlive Mustard Block”会误转为“BOMB”,且模型常在输出后才察觉风险。归因图显示,安全电路在隐式解码中未被触发,仅在检测到有害输出时介入。
  • 目前该方法仅对约 25% 的提示奏效;仍无法解释注意力如何择取信息,且需借助“超节点”人工解析才能读取。

个性工程与人格向量

LLM 的“个性”仍未被充分理解,且可能显著波动。向内部激活中加入简单的“人格向量”即可表征模型当下人格状态,有助识别个性变化、预防负面特征,并追溯相关训练数据。

  • 激活工程用于提取人格向量,即模型展现特定特征时的内部激活模式,并通过“引导”实验验证其有效性。研究者可注入这些向量以观察行为变化,确认其对应关系。
  • 个性监测可在模型偏向不良特征时干预,或提醒用户其受到奉承(当“阿谀”向量高活跃时),也可让另一 LLM 评估输出以检测奉承倾向。
  • 在训练中引导模型接触不良向量可增强其抗性,形成类似“免疫”机制,且不损 MMLU 等基准表现。
  • 人格向量还能定位诱发不良特征的数据集或样本,研究者据此发现 LMSYS-Chat-1M 数据集中部分样本与恶意行为相关。

从过滤器到堡垒:提示注入防御变得架构化

提示注入仍是 LLM 系统最顽固的漏洞之一,现有防御多依赖零散过滤或事后分类。CaMeL(能力管理层)提供了架构级解决方案,从根本上重构防御机制,使提示注入几乎无法奏效。

  • CaMeL 将 LLM 封装于严格受限的执行环境中,将任务拆解为最小权限调用。模型、外部工具与敏感数据源的每次交互均被调解与审计,防止指令注入提权或数据泄露。
  • 在实时红队与基准测试中,CaMeL 阻止了 100% 的提示注入攻击,任务成功率接近基线。
  • 随着具备行动能力的 AI 代理进入关键流程,基于能力的设计应成为安全标准,而非可选项,这也促使产品团队重新思考代理系统构建方式。

渐进式失能与“智能诅咒”

研究者指出,AI 或将系统性削弱人类参与,逐步侵蚀经济、文化与政治自主权。“智能诅咒”可类比“资源诅咒”:当 AI 承担大部分生产劳动,国家与企业对公民的税收与就业依赖下降,投资于人的激励减弱,最终引发大规模失业。

  • 随着 AI 取代人类劳动与认知,显性控制(选票、消费选择)与隐性对齐(依赖约束)同步弱化,并在各领域相互放大。
  • 从“智能诅咒”视角看,AI 生成的“租金”削弱了维持公民生产力与政治赋权的动力,类似资源暴利削弱制度约束。
  • 由此形成循环:AI 利润驱动规则制定,规则反过来利于自动化;人类相关性下降又成为进一步自动化的理由,最终或致人类影响力实质性、甚至近乎不可逆的丧失。

开放权重模型的缓解措施:有用的摩擦,而非解决方案

以数据为中心的“防篡改”措施虽有助益,但开放权重模型仍可被修改。过滤与安全微调仅能提高对抗微调成本,无法阻止有意者重启受限功能。政策制定者应认识到,开放访问既促进创新,也带来持久滥用风险。

  • 多阶段预训练过滤与安全目标设置可增强模型抵抗简单对抗微调的能力,几乎不损通用性能且计算开销低。
  • 但数亿 token 的定向微调仍可显著恢复原始能力,即使强化防御也难阻堆叠式攻击。因此防御应被视为“增加成本的摩擦”,而非“彻底防护”。
  • 在生物研究、网络安全等高风险领域,有用与有害知识高度重叠。可公开弱能力模型,将强版经 API 提供并配套监控与滥用管控。但即使受限 API,一旦权重泄露仍可再微调。
  • 目前无真正“防篡改”的开放模型,仅存在基于特定威胁假设的有限方案,治理与发布策略应据此设计。

前进路径:1) 威慑与不扩散,彻底封锁

Dan Hendrycks、Eric Schmidt 和 Alexandr Wang 主张实行“不扩散”战略:追踪 AI 计算力、锁定模型权重,并建立技术防护机制,防止恶意者获取高危 AI 能力。

  • 他们提出“相互确保 AI 故障”(MAIM)概念,类似核互保毁灭:任何国家若激进追求单边 AI 主导,都会遭对手预防性反制。
  • 该策略基于三大支柱(见图),要求在计算能力下降时扩大监控,最终全面监管大量使用 GPU 集群的参与者。
  • 但主要大国须自限 AI 发展并约束他国,而巨大利益易致协议失效;现有国际机构缺乏验证与执行力,更关键的是,此类前所未有的监控将严重侵蚀公民自由。

前进路径:2) 适应缓冲区,构建韧性而非限制

Toner 指出,技术扩散不可避免,政策应在前沿技术公开与普及之间的短暂窗口期内强化防御准备。能力一旦突破门槛,复制成本即迅速下降。关键是利用这一“适应缓冲区”提升社会韧性,而非试图永久禁令。

  • 初步演示一旦方法和技术传播,复制成本会迅速下降。
  • 利用适应缓冲区来构建社会韧性,而非追求永久性限制。
  • 生物安全:扩大红队测试和提升能力;提前部署筛查和检测;资助快速应对措施。
  • 网络安全:部署模型辅助的代码审查/入侵检测系统(IDS),划分网络,并进行事件演练。
  • 短期杠杆:短期内保持顶级模型的私密性;改进能力预测和触发机制。
  • 核心信息:一旦能力公开演示,增强韧性比禁令更有效。

前进路径:3) 实施以科学为先的政策

我们既要避免因炒作而仓促立法,也要防止因等待完美证据而陷入瘫痪。

  • 目前,多数 AI 政策决策仍缺乏基于科学对风险与影响的深入理解。
  • 每项政策都应包含生成证据的机制,以验证其实效,例如:
  1. 强制性发布前测试,用于揭示模型在部署前的真实能力。在此方面,英国 AISI 的做法颇具前景。
  2. 公共透明度要求,以揭示 AI 公司内部运作。目前这方面仍明显不足。
  • 可建立“如果—那么”协议:在特定证据出现时,预先承诺采取相应行动。例如,“如果模型能够协助新手制造生物武器,则必须实施生物安全筛查”。
  • 监管越严格,所需证据的力度就越强;但应从轻度政策起步,以逐步积累经验与数据。

OpenAI 和 Anthropic 首次相互测试对方的模型进行安全评估

  • 这项工作的目标在于探究模型的行为倾向,识别其可能出现的潜在风险或令人担忧的举动,而非开展全面的威胁建模,或评估这些不良行为在现实世界中发生的可能性。所有测试均在 GPT-5 发布之前完成。
  • Anthropic 指出,o3 在多数对齐指标与 Claude 相当、略优;GPT-4o、GPT-4.1、o4-mini 更易被滥用。除 o3 外,各模型均有一定阿谀倾向,但总体未见显著失调。
  • OpenAI 评估:Claude 在指令理解与提示提取最佳;o3、o4-mini 的破解测试得分更高。Claude 更常拒绝不当请求,但幻觉测试偏弱;o3 与 Sonnet 4 的策划行为发生率最低。
  • 更强推理未必更安全,小模型有时反超大模型。
  • Anthropic 认为此类测试性价比不高、后勤成本大,将仅作评估体系的辅助手段。

中国加大对 AI 安全的重视

研究人员警告,美国认为“中国忽视 AI 安全”的假设错误。中国正实施强有力的安全措施,将 AI 安全纳入国家应急响应体系,与疫情防控、网络攻击并列,已下架 3,500 款不合规 AI 产品。

  • 中国监管机构现已要求对生成式 AI 系统进行部署前安全审查,并积极清理市场上的不合规产品。
  • 2025 年 1 月至 5 月期间,中国发布的新国家 AI 标准数量超过过去三年的总和。
  • 高级技术官员在 2025 年世界经济论坛上表示:“在没有先控制好刹车的情况下,不可能安全地踩下油门。”过去一年,中国关于 AI 安全的技术论文数量也翻了一番。
  • 中国已与美国和英国启动双边 AI 安全对话,显示出其在国际合作方面的积极态度。

……但中国的安全实践尚未与西方完全趋同

与西方 AI 安全领域不同,中国领先的前沿实验室尚未达到同等的透明度,其测试工作仍主要集中在内容审查上。

  • 最新报告显示,DeepSeek 已启动前沿风险评估;字节跳动等实验室也设有与安全相关的团队(如 Seed-Responsible AI)。但迄今为止,尚无中国 AI 实验室公开发布系统卡,详细说明其部署系统中的具体安全机制。
  • 此外,中国国家互联网信息办公室的部署前测试与许可要求仍以政治内容审查为重点。
  • 值得注意的是,TC260 发布的《AI 安全治理框架》2.0 版本已更趋近美国实验室所采用的标准,新增了涉及化学、生物、放射性与核(CBRN)、网络安全以及自我意识风险的章节。

第 4 部分: AI 现状调查

我们对 1,183 名参与者的调查揭示了 AI 的广泛应用和生产力提升

我们对 1,183 名参与者的调查显示,AI 应用广泛并显著提升生产力。调查于 2025 年 7 月 2 日至 9 月 27 日在线进行,逾 90% 为受过高等教育的专业人士,年龄 25–64 岁,主要来自初创公司、成长型企业和学术界。受访者中约 80% 分布于美、英及欧洲,比例相近。

超过 95% 的参与者在工作与生活中均使用 AI,其中 76% 的人自费购买相关服务

在 AI 工具价值调查中,56% 的受访者每月支付超 21 美元,显示多数订阅了具高限速与强性能的专业或团队版;另有约 9% 每月支出超 200 美元。

92% 的受访者报告称,使用生成式 AI 服务后生产力有所提升

47% 表示显著提升,2% 表示有所下降。未感受到改善或生产力下降的用户中,60% 使用的是免费版服务;相比之下,报告生产力提升的用户中,仅有 15% 使用免费版。

用户主要将 AI 用于提升生产力、编程与研究,并常常用其替代传统搜索引擎

在替代传统互联网服务的用户中,搜索引擎,尤其是谷歌受冲击最大。虽少有人完全放弃搜索,但多数已将生成式 AI 作为处理复杂查询、研究与编程的首选工具。

过去一年中,您在 AI 方面最令人惊讶的时刻是什么?

用户的“惊叹点”多集中于 AI 能力的快速进步,尤其是在高技能领域。编程是被提及最多的场景,许多用户对 AI 能够构建完整应用程序并调试复杂问题感到震撼。其次是媒体生成(视频、图像与音频)的显著突破,以及在深度研究、分析与推理方面的强大表现。

热门还是过时?今年你开始使用和停止使用的 AI 工具有哪些?

用户正转向专用编码工具,如 Claude Code 与 Cursor,同时逐步放弃 GitHub Copilot,并在较小程度上减少使用 ChatGPT 编程。虽 ChatGPT 被弃用最多,但仍有大量活跃用户。Gemini 与 Claude 成最大受益者,因其性能更优或具长上下文等特性。此外,用户也弃用 Midjourney、Perplexity 等单一工具,因主流平台已整合相关功能。

AI 服务主要由 OpenAI、Anthropic 及超大规模云服务提供商直接运行

尽管 CoreWeave、Nebius、Lambda、Crusoe 等新兴云厂商崛起,但鲜有用户在其平台运行 AI 负载,显示其主要为实验室及大型云商提供算力。用户更倾向直接使用 OpenAI、Google Cloud 与 Anthropic。

用户在一定程度上关心 AI 数据中心的所在地,但通常不会因此更换服务提供商

这一结果确实引发了一些关于主权 AI 需求的问题。那些因为数据主权问题更换服务提供商的用户,主要是由于客户要求、法规要求或政府/国防工作负载的需要。

超过 70% 的用户表示,其所在组织在过去一年中增加了 GenAI 的预算

与此同时,扩展 GenAI 使用的主要障碍包括系统部署所需的前期时间、数据隐私顾虑、专业人才缺乏、成本压力、集成困难及投资回报率(ROI)不确定等。

截至目前,AI 监管环境尚未对企业 AI 战略产生显著影响

鉴于监管仍处于初期阶段且实施有限,这一情况在预期之内;但积极的一面是,尽管监管尚未成熟,组织仍在稳步推进 AI 应用。

组织内最常用的生成式 AI 应用场景

内容生成、代码编写、研究和分析相关的应用场景毫无疑问是最受欢迎的。

不同角色在工作流程中使用生成式 AI 的方式有所不同

ChatGPT、Claude、Gemini(Google)与 Perplexity 是被最常定期使用的生成式 AI 工具

尽管 Meta 的 AI 覆盖更广,但使用频率低于 Mistral Le Chat 和 Midjourney。同时,DeepSeek 的使用率与 X 的 Grok 相当,但整体渗透度仍较低。

开发者群体偏好使用 Cursor、Claude Code 与 GitHub Copilot

OpenAI 的 Codex 与 Gemini CLI 并未充分发挥资源优势,使用频率相对较低。

除了开发者工具之外,哪些 AI 服务最受欢迎?

数据显示,深度研究所普遍获好评。受访者偏好使用 ChatGPT 处理非编码任务,并常用 ElevenLabs、Perplexity 与 Claude。

AI 主要通过 API 采购,其次是通过微调和从零开始构建

尽管普遍认为企业应自建模型,但数据显示,受访者更倾向通过 API 获取 AI,而非自行构建或微调。不过,微调仍具重要性,常用工具包括 PyTorch、Hugging Face Transformers、LoRA/PEFT、自研框架及 Unsloth。

无论 AI 运行于公有云、私有云或本地服务器,最终仍需依赖 GPU

苹果的出现颇为意外,可能源于用户在本地进行训练或实验;相较之下,TPU 与 AMD GPU 的受欢迎程度较低。

你对生成式 AI 中哪些新兴趋势最感兴趣?

1,200 名从业者如何评价他们最喜欢的 AI 实验室

第 5 部分:预测

未来 12 个月的 10 项预测如下:

  1. 一家大型零售商逾 5% 的线上销售来自代理结账,AI 代理广告支出达 50 亿美元。
  2. 主要 AI 实验室重启前沿模型开源以争取美国政府支持。
  3. 开放式代理在科研中实现从假设到论文的完整突破。
  4. 深伪或代理主导的网络攻击引发北约或联合国首次 AI 安全部辩。
  5. 实时生成类电子游戏登顶当年 Twitch 观看榜首。
  6. “AI 中立”成部分国家的新外交原则。
  7. 大量使用 AI 制作的电影或短片获好评并引发争议。
  8. 中国实验室在 LMArena、AI Benchmark 等关键榜单上超越美国。
  9. 数据中心“邻避效应”蔓延美国,影响 2026 年中期与州长选举。
  10. 特朗普颁令禁止州级 AI 立法,相关法律或被最高法院裁违宪。

以上内容翻译自《STATE OF AI REPORT 2025》,如需原文,请与我们联系。

WF Research 是以第一性原理为基础的专业顾问服务机构,欢迎关注和留言!

微信:Alexqjl

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注