抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

强化学习

在不远的过去,强化学习被各种唱衰,环境难以模拟、算法难以泛化、激励难以设计、应用场景有限等等,很多人认为强化学习很酷,但就是“没用”。但随着LLM的兴起,RL可以帮助LLM实现对齐人类偏好、、提升生成质量、低成本Post Train,RL瞬间成为了一种杀手级应用。于是最近一段时间,无论是LLM、Diffusion、具身智能,都开始搞RL了。

我最近打算使用RL训练Diffusion,以提升美学质量和图文对齐程度,于是从头开始学习RL

概述

强化学习(reinforcement learning,RL)讨论的是智能体(agent)如何在环境中最大化奖励。智能体一直在与环境交互,智能体会评估当前状态,输出动作,获得奖励。

AE_loop

环境

强化学习的环境由四部分组成:

  • 状态空间
  • 动作空间
  • 状态转移概率
  • 奖励函数

对于一些情况,我们并没有显式的状态转移概率和奖励函数,智能体依赖交互数据对去学习策略。这种环境是一种黑箱的情况,我们称之为model free。而那种有显式的可学习的状态转移函数+奖励模型的情况,称之为model base

马尔可夫决策过程

过程

过程(Process):一个随着时间变化的随机变量序列。如每天的股票价格、每天的天气情况

马尔可夫性

马尔可夫性:未来仅依赖于当前,而不依赖过去
$$
P(s_{t+1},|,s_t, s_{t-1}, \dots, s_0) = P(s_{t+1},|,s_t)
$$

马尔可夫链

马尔可夫链(Markov Chain):一种满足马尔可夫性的随机过程

马尔可夫过程

马尔可夫过程(Markov Process):马尔可夫链的形式化定义
$$
\langle S, P \rangle
$$

  • $S$:状态空间

  • $P$:状态转移概率矩阵

马尔可夫奖励过程

马尔可夫奖励过程(Markov Reward Process, MRP):在MP上加入奖励信号
$$
\langle S, P, R, \gamma \rangle
$$

  • $R(s)$:在状态 $s$ 下得到的期望奖励
  • $\gamma \in [0,1]$:折扣因子,控制未来奖励的重要性

马尔可夫决策过程

马尔可夫决策过程 (Markov Decision Process, MDP),在MRP中引入动作,智能体可以通过策略来影响环境演化
$$
\langle S, A, P, R, \gamma \rangle
$$

  • $A$:动作空间

Q-Learning

Q表格是一张已经训练好的表格,行是状态数,列表示在该状态下该动作的平均总奖励,形如

动作1 动作2
状态1 0 -90
状态2 0 10

表格型方法:通过查Q表格,我们就可以判断某个状态应该使用什么动作。训练的过程就是将一张空的Q表格填满,用蒙特卡洛采样的方式更新Q表格

策略梯度

策略(policy)是智能体的决策规则,是智能体在状态 $s$ 下采取行动 $a$ 的概率,由参数 $\theta$ 控制
$$
\pi_\theta(a|s)
$$
策略是参数化的 $\pi_\theta$,将长期奖励目标视为 $\theta$ 的函数,用梯度上升的方法优化它

直观含义是:

  1. 如果一个动作回报高,则增加这个动作的概率
  2. 如果一个动作回报低,则降低这个动作的概率

PPO

近端策略优化(proximal policy optimization,PPO)

  • 同策略(on-policy):学习的策略和与环境交互的策略是同一个,如PPO
  • 异策略(off-policy):学习的策略和与环境交互的策略可以不同,如Q-Learning、DQN

参考

easy-rl

评论