强化学习之父 Richard Sutton 和谷歌强化学习副总裁 David Silver 最新力作《欢迎来到经验时代》

摘要
我们正站在 AI 新时代的入口，这一新时代预示着 AI 将具有前所未有的能力。新一代的 Agent 将主要通过经验学习来获得超越人类的能力。本文将探讨界定这一新时代的关键特征。

我们正站在 AI 新时代的入口，这一新时代预示着 AI 将具有前所未有的能力。新一代的 Agent 将主要通过经验学习来获得超越人类的能力。本文将探讨界定这一新时代的关键特征。

PART 01 —— 人类数据

近年来，AI 通过在海量人类生成的数据上进行训练，并利用人类专家提供的示例和偏好进行微调取得了显著进展。这一方法的典型例子是 LLM，它们已经在众多领域展现出了广泛的通用能力。如今，单一的 LLM 可以完成从写诗、物理解题，到医学诊断、法律文件总结等各种任务。

然而，虽然模仿人类足以使 LLM 的许多能力达到胜任水平，但仅靠这一方法，AI 在许多重要领域和任务上还是难以达到超越人类的智能水准。例如，在数学、编程和科学等关键领域，从人类的数据中提取知识正迅速接近其极限。大多数真正能够提升强大 Agent 性能的高质量数据源要么已经被消耗殆尽，要么很快就会被耗尽。仅通过监督学习从人类数据中获取进展的速度明显放缓，这标志着我们迫切需要一种新方法。此外，许多新的突破性见解，如新的定理、技术或科学发现，超越了当前人类理解的边界，现有的 AI 系统也无法捕捉到这些信息。

PART 02 —— 经验时代

要想更进一步地发展，AI 需要一种新的数据来源。这种数据必须以一种随着 Agent 能力增强而不断改进的方式而生成；任何静态的合成数据生成方案都很快会被超越。通过允许 Agent 从自己的经验中不断学习，也就是通过与环境的互动生成数据，就能够实现这一目标。AI 正处于一个新时期的入口，经验将成为进步的主导方式，并最终超越当前系统中使用的海量人类数据。

这场转变或许已经悄然开始，即便是那些代表以人为中心的 AI （Human-Centric AI ） LLM 亦不例外。以数学能力为例，AlphaProof 最近成为首个在国际数学奥林匹克竞赛中获奖的程序，其表现超越了传统的以人为中心的方法。在训练初期，AlphaProof 接受了大约十万条由人类数学家在多年间形成的形式化证明；随后，依托强化学习算法，AlphaProof 通过与形式化证明系统的持续交互，自主生成了一亿条新的证明数据。通过聚焦于交互式经验，AlphaProof 能够探索超越既有形式化证明体系边界的数学可能性，进而发现解决新颖且具挑战性问题的方法。在非形式化数学领域，也同样出现了通过自生成数据取代专家生成数据而取得成功的案例；例如，DeepSeek 最近的研究成果便“凸显了强化学习的力量与美感：不是明确地教模型如何解决问题，而是简单地为它提供正确的激励，让它自主发现先进的解决策略。”

我们认为，一旦充分发挥经验学习的潜力，就会涌现出惊人的新能力。经验时代很可能具有以下特征：Agent 及其环境除了从海量经验数据中学习之外，还将在多方面突破以人为中心的 AI 系统的局限：

Agent 将存在于连续的持续交互，而非只是短暂的交互。
Agent 的行动和观察将与环境紧密结合，而不仅仅是通过人类对话进行交互。
Agent 的奖励将基于其与环境的互动经验，而不是来自于人类的预判。
Agent 将围绕经验进行规划和推理，而不仅仅是在传统的人类思维框架下进行推理。

今天的技术，通过适当的算法已经提供了一个足够强大的基础来实现这些突破。更重要的是，AI 社区的追求将激发这些方向上的创新，迅速推进 AI 朝着真正超越人类的 Agent 方向发展。

PART 03 —— 持续交互

经验型 Agent 可以在整个生命周期中持续学习。在人类数据时代，基于语言的 AI 主要专注于短暂的交互：例如，用户提出一个问题，（也许经过几个思考步骤或工具使用操作后） Agent 给出回答。一次交互结束后几乎没有信息被传递到下一次，这就阻断了系统随时间逐步调整的可能。

此外，Agent 只专注于当前交互内的结果直接回答用户的问题。相比之下，人类（及其他动物）处于一个持续多年的连续行动和观察流之中。信息贯穿整个持续交互过程，他们会根据过去的经验自我纠正和改进行为。此外，人类可以设定跨越整个持续交互过程的长期行动和观察目标。例如，人们可以采取一系列行动来实现长期目标，比如改善健康、学习语言或取得科学突破。

强大的 Agent 应当拥有自身的持续交互能力，并且像人类一样在长时间范围内上不断改进。这将使 Agent 能够采取行动来实现未来的目标，并随着时间推移持续适应新的行为模式。例如，一个健康管理的 Agent 连接到用户的可穿戴设备，可以在数月内监测睡眠模式、活动水平和饮食习惯。然后，它可以根据长期趋势和用户设定的健康目标，提供个性化的建议和鼓励，并调整其指导方案。类似地，一个个性化教育 Agent 可以持续跟踪用户学习新语言的进度，识别知识空白，适应用户的学习风格，并在数月甚至数年的时间里调整其教学方法。此外，一个科研 Agent 可以追求雄心勃勃的目标，例如发现新材料或减少二氧化碳排放。这样的 Agent 可以在较长时间内分析现实世界的观测结果，开发并运行模拟实验，并提出现现实可行的实验方法或干预措施。

在每个场景中，Agent 都会采取一系列步骤，以尽可能确保实现特定目标。某个单独的步骤可能不会带来直接帮助，甚至在短期内可能有害，但总体上仍然有助于成功。这与当前的 AI 系统形成了鲜明对比，现有的 AI 系统对请求给出即时响应，却没有能力衡量或优化对环境造成的后果。

PART 04 —— 行动与观察

经验时代的 Agent 将在真实世界中自主行动。而在人类数据时代，LLM 主要专注于人类特权式的行动和观察，即通过向用户输出文本、从用户处接收文本的方式进行交互。这与自然界中的智能截然不同：动物（尤其是人类）通过自身的运动控制和感官来与环境互动。虽然动物（尤其是人类）也会与其他动物交流，但这种交流是通过与其他运动控制相同的交互接口进行的，而非通过某种特定的渠道。

人们早已认识到，LLM 也可以在数字世界中执行动作，例如调用 API。起初，这些能力主要来自人类提供的工具使用示例，而非源自 Agent 自身的经验。然而，编程和工具使用能力越来越多地建立在执行反馈之上，即 Agent 实际运行代码并观察其结果。最近，新一代的原型 Agent 开始以更加通用的方式与计算机互动，它们使用与人类操作计算机相同的界面。这些变化预示着交流模式正从纯粹的人类特权通信转变为更加自主的交互，在这种交互中 Agent 能够独立地在世界中行动。这样的 Agent 将能够主动探索世界，适应不断变化的环境，并发现人类可能从未有过的策略。

这些更丰富的交互将为 Agent 自主理解和控制数字世界提供手段。Agent 可能采用对人类友好的行动和观察方式，例如用户界面，从而自然而然地促进与用户的沟通与协作。Agent 也可以采取对机器友好的行动，如执行代码和调用 API，以便其能够自主地为实现自身目标而行动。在经验时代，Agent 还将通过数字界面与现实世界互动。例如，一个科研 Agent 可以监测环境传感器、远程操作望远镜或控制实验室中的机械臂，以自主开展实验。

PART 05 —— 奖励

如果具备经验学习的 Agent 可以从外部事件和信号中学习，而不仅仅依赖人类偏好，会怎样？

以人为中心的 LLM 通常针对基于人类预先评判的奖励进行优化：由人类专家观察 Agent 的动作并判断其优劣，或者在多个备选方案中选出 Agent 的最佳行为。例如，专家可能会评判健康管理 Agent 给出的建议、教育助理 Agent 的教学方案，或科研 Agent 提出的实验方案。由于这些奖励或偏好是在不考虑其后果的情况下由人类决定的，而不是通过衡量这些行为对环境的影响来确定的，这意味着它们并未直接基于真实世界。以这种方式依赖人类预判通常会为 Agent 的性能设下无法突破的天花板：Agent 无法发现那些未被人类评估者充分认可的更优策略。要想发现远远超出现有人类知识的新思路，就有必要改用基于环境的奖励，也就是来自环境本身的信号。例如，健康助理可以将用户的健康目标转化为一种基于多种信号的奖励函数，这些信号包括静息心率、睡眠时长和活动水平；而教育助理则可以通过考试成绩来为语言学习设定奖励。类似地，若科研 Agent 的目标是减少全球变暖，则其奖励信号可以基于二氧化碳浓度的实证观测数据；若目标是发现更坚固的材料，则奖励可以基于材料模拟器中提取的一组测量指标，如抗拉强度或杨氏模量进行设定。

奖励也可能来自于作为 Agent 环境一部分的人类。例如，用户可以报告他们在食用某种蛋糕后的感受、锻炼后的疲劳度，或头痛时的疼痛等级，从而使得 Agent 能够为其提供更好的食谱、优化健身建议或改进治疗方案。此类奖励衡量的是 Agent 在其环境中的行动结果，比起由人类专家预先评判蛋糕配方、锻炼计划或治疗方案，这应当能够带来比人类专家预判更好的辅助效果。

如果奖励不来自人类数据，那么它来自何处？一旦 Agent 通过丰富的行动和观察空间与世界相连接，环境本身将为奖励提供源源不断的信号。事实上，现实世界中有大量可度量的维度，如成本、错误率、饥饿程度、生产率、健康指标、气候指标、利润、销售额、考试成绩、成功率、访问量、产量、股票、点赞数、收入、快感/痛苦程度、经济指标、准确度、功率、距离、速度、效率和能耗。此外，还有无数的额外信号来自特定事件的发生，或通过原始观察和行动序列所提取的特征。

原则上，我们可以创造多种不同的 Agent，每一种都针对一种信号作为其奖励进行优化。有一种观点认为，即使是单一的此类奖励信号，只要进行有效的优化，也足以推动 Agent 达到一定的能力水平。因为在复杂环境中，达成一个简单目标往往需要掌握多种技能。

然而，仅追求单一的奖励信号，表面上看并不能满足通用 AI 需要被可靠引导至任意用户期望行为的要求。那么，自主优化基于环境的非人类奖励信号是否与现代 AI 系统的需求相矛盾？我们认为未必如此，并指出一种可能满足这些要求的方法；当然，也可能存在其他方法。

其核心思想是在用户引导下，基于环境信号灵活地调整奖励。例如，可以用一个神经网络来定义奖励函数，该网络将 Agent 与用户以及环境的交互作为输入，输出一个标量奖励。这使得奖励函数能够根据用户的目标，从环境中选择或组合信号。例如，用户可能指定一个宽泛的目标，如“提升我的健康水平”，则奖励函数可以输出一个基于用户静息心率、睡眠时长和行走步数等信号的值。再如，用户指定“帮助我学会西班牙语”这一目标，奖励函数则可以返回用户的西班牙语考试成绩。

此外，用户可以在学习过程中提供反馈，例如他们的满意度，这可用于微调奖励函数。随后，奖励函数可以随着时间推移进行调整，以改进其选择或组合信号的方式，并识别和纠正任何偏差。这也可以被理解为一种双层优化过程：高层以用户反馈为目标进行优化，低层以环境中与现实环境交互相结合为目标进行优化。通过这种方式，少量的人类数据便可以催生大量的自主学习。

PART 06 —— 规划与推理

经验时代是否将改变 Agent 进行规划与推理的方式？近期，使用 LLM 进行推理，即在输出回应前沿着思维链展开思考，取得了显著进展。从概念上讲，LLM 可以充当通用计算机：LLM 能够将新的 token 追加到自身的上下文中，从而在输出最终结果之前执行任意算法。

在人类数据时代，上述推理方法被明确设计为模仿人类的思维过程。例如，LLM 通常被提示生成类似人类的思维链，模仿人类思考的轨迹，或者强化那些与人类示例相符合的思维步骤。推理过程还可以通过进一步微调，使其产生符合人类专家认定的正确答案的思维轨迹。

然而，人类语言极不可能提供通用计算模型的最佳实例。更高效的思维机制肯定存在，它们使用非人类的“语言”，例如利用符号式、分布式、连续或可微分的计算。原则上，一个自我学习的系统可以通过从经验中学习如何思考来发现或改进此类方法。例如，AlphaProof 学会了以一种与人类数学家截然不同的方式形式化地证明复杂定理。

此外，“通用计算机”原理只涉及 Agent 的内部计算，并未将其与外部世界的现实相联系。一个被训练来模仿人类思维或匹配人类专家答案的 Agent，可能继承植根于数据之中的谬误思维方式，例如错误的假设或固有的偏见。例如，如果一个 Agent 被训练为使用 5,000 年前的人类思维和专家答案进行推理，它可能会以万物有灵的观念来思考物理问题；1,000 年前，它可能会用有神论的方式来推理；300年前，它可能会根据牛顿力学进行推理；而 50 年前，它则可能依据量子力学来推理。要超越每一种思维模式都需要与真实世界的互动：提出假设、进行实验、观察结果并相应地更新原理。同样，Agent 必须基于真实世界数据，才能推翻谬误的思维方式。这种基于环境的方式为 Agent 提供了一个反馈循环，使其能够将继承的假设拿到现实中检验，并发现不受当前主流人类思维模式局限的新原理。没有这种基础，再复杂的 Agent 也会沦为现有人类知识的回音室。要突破这一点，Agent 必须主动与世界交互，收集观测数据，并利用这些数据迭代完善其认知，在很多方面这类似于推动人类科学进步的过程。

将思考直接基于外部世界的一个可行方法是构建一个世界模型，用于预测 Agent 的行动对环境造成的后果，包括对奖励的预测。例如，一个健康助手 Agent 可能会考虑推荐当地健身房或健康播客，该 Agent 的世界模型可以预测在采取这一行动后用户的心率或睡眠模式会发生怎样的变化，并预测未来与用户的对话。这使 Agent 能够直接基于自身行动及其对世界的因果影响来进行规划。随着 Agent 在其持续交互中持续与世界交互，其动态模型会不断更新，以修正预测中的任何误差。在拥有一个世界模型的情况下，Agent 可以应用可扩展的规划方法来提高其预期性能。

规划和推理的方法并非相互排斥：Agent 可以在规划过程中运用内部 LLM 的计算来选择每一步行动，或模拟并评估这些行动的后果。

PART 07 —— 为什么是现在

从经验中学习并不是新鲜事。强化学习系统过去已经掌握了大量在模拟器中具有清晰奖励信号的复杂任务。例如，通过自我对弈，强化学习方法在以下游戏和任务中达到了媲美或超越人类的水平：西洋双陆棋、围棋、国际象棋、扑克和 Stratego 战略棋等棋类游戏；Atari、星际争霸 II、Dota 2 和 Gran Turismo 等电子游戏；鲁比克魔方（Rubik’s Cube）等灵巧手的操作任务；以及数据中心冷却优化等资源管理任务。此外，诸如 AlphaZero 等强大的强化学习 Agent 在神经网络规模、交互经验数量和思考时间长度等方面展现出了惊人且无上限的潜在可扩展性。然而，基于这一范式的 Agent 并未能跨越从模拟环境（封闭，具有单一且精确定义的奖励）到现实环境（开放，具有多个表面上定义不明的奖励）的鸿沟。

人类数据时代提供了一种诱人的解决方案。海量的人类数据语料库包含了极其多样化任务的自然语言示例。基于这些数据训练的 Agent 相较于“模拟时代”那种较狭窄的成功，展现了更广泛的能力范围。结果，经验式强化学习的方法被大量弃用，转而采用旨在训练更通用 Agent 的方法，AI 领域由此广泛转向以人为中心的范式。

然而，在这一转变过程中也失去了一些东西：Agent 自主发掘自身知识的能力。例如，AlphaZero 为国际象棋和围棋发现了全新的基本策略，改变了人类进行这些游戏的方式。经验时代将把这种能力与人类数据时代所实现的任务通用性水平相结合。如上所述，当 Agent 能够在现实世界的连续持续交互中自主行动和观察，并且经奖励可以灵活地连接到大量基于现实世界的信号时，这一切将成为可能。能够在复杂真实世界动作空间中交互的自主 Agent 的出现，以及能够在丰富推理空间中解决开放式问题的强大强化学习方法，都表明向经验时代的过渡已迫在眉睫。

PART 08 —— 强化学习

强化学习有着悠久的历史，它深深植根于自主学习的领域，Agent 通过与环境直接交互自行学习。早期的 RL 研究产生了一系列强大的概念和算法。例如，时序差分学习（Temporal Difference Learning）使 Agent 能够预测未来奖励，促成了在西洋双陆棋中实现超越人类水平等突破。以乐观或好奇心为驱动的探索技术帮助 Agent 发现有创造性的全新行为，避免陷入次优的惯例。像 Dyna 算法这样的方法使 Agent 能够构建并利用其环境模型，从而对未来行动进行规划和推理。诸如“选项”（options）及选项内/选项间学习（inter/intra-option learning）等概念促进了时间抽象，使 Agent 能够在更长的时间尺度上进行推理，并将复杂任务分解为可管理的子目标。

然而，随着以人为中心的 LLM 的崛起，研究的焦点逐渐从自主学习转向了利用人类知识。诸如 RLHF（基于人类反馈的强化学习）和将语言模型与人类推理对齐的方法等技术被证明极为高效，推动了 AI 能力的快速提升。这些方法虽然强大，却往往绕过了强化学习的核心概念：RLHF 通过让人类专家替代机器预测的价值，规避了对价值函数的需求；来自人类数据的强先验知识削弱了对探索的依赖；在以人为中心的框架内进行推理降低了对世界模型和时间抽象的需求。

有人认为这种范式转变有些因噎废食。以人为中心的强化学习虽然实现了前所未有的行为广度，但也为 Agent 的性能设置了新的上限：Agent 无法超越现有的人类知识。此外，人类数据时代主要关注的是针对短暂、未基于现实的人机交互回合而设计的强化学习方法，这些方法并不适用于长周期和基于现实的自主交互流。

经验时代为重新审视和改进经典强化学习概念提供了契机。本时代将带来对奖励函数的新思考方式，使其能够灵活地基于观测数据。它将重新审视价值函数及其从尚未完成的持续交互中进行预测的方法。它将引入有原则但实用的现实世界探索方法，以发现与人类先验知识截然不同的新行为。将开发新的世界模型方法，以捕捉扎根交互的复杂性。新的时间抽象方法将使 Agent 能够基于经验在更长的时间范围上进行推理。通过构建在强化学习基础之上，并将其核心原理适应这一新时代的挑战，我们可以释放自主学习的全部潜力，为真正超越人类的智能铺平道路。

PART 09 —— 影响

随着经验时代的来临 —— 在这一时代中 AI Agent 通过与世界的交互来学习，我们将迎来一个与以往任何时候都截然不同的未来。这个新范式虽然蕴含巨大潜力，但也带来了重要的风险和挑战，需要我们谨慎审视，其可能包括以下几点。

积极方面：经验式学习将释放前所未有的能力。在日常生活中，个性化助手将利用持续的交互，在数月乃至数年的时间里不断适应个人在健康、教育或职业方面的需求，以实现长期目标。也许最具变革性的是科学发现的加速，AI Agent 将自主地在材料科学、医学或硬件设计等领域设计并开展实验。通过持续学习自身实验的结果，这些 Agent 能够快速探索知识的新前沿，以前所未有的速度开发新材料、新药物和新技术。

然而，这一新时代也带来了重大而新颖的挑战。尽管将自动化有望提升生产效率，但这些改进也可能导致岗位流失。Agent 甚至可能展现出一些此前被视为人类专属的能力，例如长期问题求解、创新能力，以及对现实世界的深刻理解。

此外，尽管对任何 AI 被滥用的可能性一直存在普遍担忧，但能够长时间自主与世界交互以实现长期目标的 Agent 可能带来更高的风险。默认情况下，人类干预和调节这些 Agent 行动的机会更少，因此要求极高的信任和责任标准。从人类数据和人类思维模式转向自主经验学习也可能使未来的 AI 系统更难以解释。

然而，在承认经验学习确实会增加某些安全风险，并且必须开展进一步研究以确保安全过渡到经验时代的同时，我们也应认识到它可能会带来一些重要的安全方面的益处。

第一，经验型 Agent 能够感知其所处的环境，并且其行为可以随着环境的变化而调整。任何预先编程的系统（包括固定的 AI 系统）都可能不了解其环境背景，从而在不断变化的世界中变得不再适应。例如，一件关键硬件可能发生故障，一场大流行病可能引起社会的快速变迁，或者一项新的科学发现可能触发一连串快速的技术发展。相比之下，经验型 Agent 可以观察并学会规避故障的硬件，适应剧烈的社会变化，或拥抱并拓展新的科学技术。更为重要的是，Agent 能够识别何时其行为引发了人类的担忧、不满或痛苦，并自适应地调整其行为以避免这些负面后果。

第二，Agent 的奖励函数本身也可以通过经验进行调整，例如使用前文所述的双层优化机制。重要的是，这意味着不良的奖励函数通常可以通过反复试错逐步得到纠正。例如，与其盲目地优化某个信号（比如最大化回形针的数量），不如在回形针产量耗尽地球资源之前，就根据人类关切的迹象对奖励函数进行调整。这类似于人类彼此设定目标，然后如果发现有人在钻系统的空子、忽视长远福祉或导致了不想要的负面结果时，再对这些目标进行调整；当然，与人类设定目标一样，这也无法保证完美的对齐。

第三，依赖物理经验的进步在本质上受到在真实世界中执行动作并观察其结果所需时间的限制。例如，即使有 AI 辅助设计，新药的开发仍然需要现实世界的试验，这不可能在一夜之间完成。这可能为潜在的 AI 自我改进速度提供一种天然的制约。

PART 10 —— 结论

经验时代标志着 AI 演进的一个关键转折点。在当今坚实的基础之上，超越人类提供数据的局限，Agent 将越来越多地从自身与世界的交互中学习。Agent 将通过丰富的观察和行动自主地与环境交互。它们将在贯穿一生的持续交互中不断适应，它们的目标可以被引导至任何基于组合环境的信号。此外，Agent 将运用强大的非人类式推理，并制定以其行为对环境影响为基础的计划。最终，经验数据的规模和质量将超越人类所生成的数据。这一范式转变，加上强化学习算法的进步，将在诸多领域释放出新的能力，这些能力将超越任何人类所拥有的水平。

以上内容翻译自 David Silver 和 Richard S. Sutton 的《Welcome to the Era of Experience》，如需原文，请与我们联系。