强化学习进阶范式
引言
除了标准的无模型在线强化学习(Model-Free Online RL),研究者提出了多种进阶范式以应对采样效率低、安全性差、多智能体协调等挑战。本文介绍基于模型的 RL、离线 RL、多智能体 RL、分层 RL、逆强化学习以及基础模型与 RL 的结合等前沿方向。
基于模型的强化学习
基于模型的 RL(Model-Based RL, MBRL)学习环境的动力学模型 ,然后利用该模型进行规划或生成虚拟数据,显著提高采样效率。
Dreamer
Dreamer 系列(DreamerV1/V2/V3)在学习到的世界模型中进行"想象"训练:
- 世界模型:使用循环状态空间模型(RSSM)学习环境动力学
- 想象训练:在世界模型中生成虚拟轨迹,在想象空间中训练 Actor-Critic
- 真实数据收集:使用当前策略与真实环境交互,收集数据更新世界模型
DreamerV3 可以在不调整超参数的情况下跨越多种任务类型(连续控制、Atari、Minecraft)。
MBPO
基于模型的策略优化(Model-Based Policy Optimization, MBPO)结合了模型学习和无模型算法:
- 用真实数据训练环境模型的集成(Ensemble)
- 从真实状态出发,用模型生成短期虚拟轨迹
- 将真实数据和虚拟数据混合,用 SAC 更新策略
MBPO 控制模型使用的 rollout 长度,通过不确定性估计避免模型误差积累。
| 算法 | 类型 | 采样效率 | 适用场景 |
|---|---|---|---|
| PPO | 无模型 | 低 | 仿真环境充足 |
| SAC | 无模型 | 中 | 连续控制 |
| MBPO | 基于模型 | 高 | 真实交互受限 |
| Dreamer | 基于模型 | 高 | 高维观测(图像) |
离线强化学习
离线 RL(Offline RL / Batch RL)完全从预先收集的静态数据集中学习策略,无需与环境交互。核心挑战是分布偏移:策略可能选择数据集中未覆盖的动作,导致 Q 值的过估计。
CQL(保守 Q 学习)
CQL(Conservative Q-Learning)通过对未见动作的 Q 值施加惩罚来学习保守的 Q 函数:
第一项使得数据集外动作的 Q 值降低,第二项是标准的 Bellman 误差。
IQL(隐式 Q 学习)
IQL(Implicit Q-Learning)避免查询数据集外的动作,使用分位数回归估计 V 函数:
其中 是不对称的二次损失, 控制期望分位数。IQL 实现简单,训练稳定。
Decision Transformer
Decision Transformer 将 RL 建模为序列预测问题,使用 Transformer 架构:
输入序列:
其中 是期望的回报-to-go(Returns-to-Go)。推理时通过设定高回报目标来引导生成高质量动作。
# Decision Transformer 推理伪代码
def generate_action(model, states, actions, returns_to_go, timesteps):
# 构建输入序列
input_seq = interleave(returns_to_go, states, actions)
# Transformer 前向传播
predicted_action = model(input_seq, timesteps)
return predicted_action[-1] # 返回最新预测的动作
多智能体强化学习
多智能体 RL(Multi-Agent RL, MARL)研究多个智能体在共享环境中的学习与协调。
训练范式
| 范式 | 缩写 | 描述 |
|---|---|---|
| 集中式训练集中式执行 | CTCE | 全局信息训练和执行,可扩展性差 |
| 集中式训练分布式执行 | CTDE | 训练时使用全局信息,执行时仅用局部观测 |
| 独立学习 | IL | 每个智能体独立训练,简单但不稳定 |
CTDE 是目前最主流的范式。
MAPPO
MAPPO(Multi-Agent PPO)将 PPO 扩展到多智能体场景:
- 每个智能体有独立的策略网络(基于局部观测)
- Critic 使用全局状态信息(CTDE 范式)
- 参数共享:同类智能体共享网络参数,输入智能体 ID 区分
- 在 StarCraft Multi-Agent Challenge(SMAC)等基准上表现优异
QMIX
QMIX 用于合作型多智能体任务,将全局 Q 值分解为个体 Q 值的单调混合:
混合网络的权重由全局状态 通过超网络生成,并约束为非负以保证单调性。
分层强化学习
分层 RL(Hierarchical RL, HRL)将复杂任务分解为多层次的子任务:
Option 框架
Option 由三部分组成:
- :初始集合(在哪些状态下可以启动该 option)
- :内部策略(option 执行时的行为策略)
- :终止条件(option 何时结束)
Goal-Conditioned RL
高层策略生成子目标(Goal),低层策略学习达成子目标:
- 高层策略:每隔 步选择一个子目标
- 低层策略: 执行原始动作以达成子目标
- 内在奖励:低层策略的奖励基于是否接近子目标
这种结构在长视野、稀疏奖励的导航和操作任务中效果显著。
逆强化学习
逆强化学习(Inverse RL, IRL)从专家演示中推断奖励函数,再据此训练策略。
最大熵 IRL
假设专家行为遵循最大熵分布:
通过最大化专家轨迹的对数似然来学习奖励函数 。
GAIL
生成对抗模仿学习(Generative Adversarial Imitation Learning, GAIL)使用 GAN 框架:
- 判别器:区分专家轨迹和策略轨迹
- 生成器(策略):学习产生让判别器无法区分的行为
GAIL 无需显式恢复奖励函数,直接学习策略。
基础模型与强化学习
大语言模型(Large Language Model, LLM)和视觉-语言模型(Vision-Language Model, VLM)正与 RL 深度融合:
LLM 作为奖励函数
利用 LLM 的常识知识设计奖励函数:
- 给定任务描述,LLM 生成奖励函数代码
- 人类反馈指导奖励优化
- 代表工作:Eureka(NVIDIA, 2023)
LLM 作为高层规划器
LLM 分解自然语言指令为子任务序列,RL 策略执行底层动作:
- SayCan:LLM 提议动作,RL 评估可行性
- Inner Monologue:加入视觉和触觉反馈的闭环推理
VLM 作为表征
视觉-语言预训练模型提供通用视觉表征:
- R3M、MVP 等使用预训练视觉编码器
- 减少视觉 RL 的训练数据需求
参考资料
- Hafner D, et al. Mastering Diverse Domains through World Models (DreamerV3). arXiv:2301.04104, 2023.
- Janner M, et al. When to Trust Your Model: Model-Based Policy Optimization. NeurIPS, 2019.
- Kumar A, et al. Conservative Q-Learning for Offline Reinforcement Learning. NeurIPS, 2020.
- Chen L, et al. Decision Transformer: Reinforcement Learning via Sequence Modeling. NeurIPS, 2021.
- Yu C, et al. The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games. NeurIPS, 2022.
- Ma Y J, et al. Eureka: Human-Level Reward Design via Coding Large Language Models. arXiv:2310.12931, 2023.