Policy Gradient

要求完成：

cs285/scripts/run_hw2.py
cs285/agents/pg_agent.py
cs285/networks/policies.py
cs285/networks/critics.py
cs285/infrastructure/utils.py

强化学习中的策略梯度方法（Policy Gradient）

回顾强化学习的目标是学习一个最优策略参数 $θ^{*}$ ，使得目标函数最大化： $J (θ) = E_{τ \sim π_{θ} (τ)} [r (τ)]$ 其中每个轨迹 $τ$ 的长度为 $T$ ，定义如下： $π_{θ} (τ) = p (s_{0}, a_{0}, \dots, s_{T - 1}, a_{T - 1}) = p (s_{0}) π_{θ} (a_{0} ∣ s_{0}) \prod_{t = 1}^{T - 1} p (s_{t} ∣ s_{t - 1}, a_{t - 1}) π_{θ} (a_{t} ∣ s_{t})$ 以及奖励函数： $r (τ) = r (s_{0}, a_{0}, \dots, s_{T - 1}, a_{T - 1}) = \sum_{t = 0}^{T - 1} r (s_{t}, a_{t}) .$ 策略梯度方法直接对上述目标函数求梯度：

\begin{aligned} \nabla_\theta J(\theta) &= \nabla_\theta \int \pi_\theta(\tau) r(\tau) d\tau \\ &= \int \pi_\theta(\tau) \nabla_\theta \log \pi_\theta(\tau) r(\tau) d\tau. \\ & = \mathbb{E}_{\tau \sim \pi_\theta(\tau)}[\nabla_\theta \log \pi_\theta(\tau) r(\tau)] \end{aligned} $$ 实际应用中的近似计算 在实际中，轨迹 $\tau$ 上的期望可以通过采样一批 $N$ 条轨迹来近似：

\begin{aligned} \nabla_\theta J(\theta) &\approx \frac{1}{N} \sum_{i=1}^N \nabla_\theta \log \pi_\theta(\tau_i) r(\tau_i)\ & = \frac{1}{N} \sum_{i=1}^N \left( \sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_{it}|s_{it}) \right) \left( \sum_{t=0}^{T-1} r(s_{it}, a_{it}) \right). \end{aligned} $$我们可以看到，策略 $π_{θ}$ 是在给定状态 $s_{t}$ 下，动作空间上的概率分布。在智能体与环境的交互循环中，智能体会从 $π_{θ} (\cdot ∣ s_{t})$ 中采样动作 $a_{t}$ ，而环境则会以奖励 $r (s_{t}, a_{t})$ 做出响应。

方差降低（Variance Reduction）

未来奖励（Reward-to-go）

一种降低策略梯度方差的方法是利用“因果性”：策略无法影响过去已发生的奖励。这引出了一个修改后的目标函数，其中奖励的总和不包括在查询策略时刻之前已经获得的奖励。这个奖励之和是对 $Q$ 函数的一个采样估计，被称为“未来奖励”（reward-to-go）。 $\nabla_{θ} J (θ) \approx \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 0}^{T - 1} \nabla_{θ} lo g π_{θ} (a_{i t} ∣ s_{i t}) (\sum_{t^{'} = t}^{T - 1} r (s_{i t^{'}}, a_{i t^{'}}))$

折扣因子（Discounting）

将折扣因子 $γ$ 应用于奖励可以被理解为鼓励智能体更关注时间上更近的奖励，而减少对遥远未来的奖励的关注。这也可视为一种降低方差的手段（因为越远的未来具有更大的不确定性，从而导致更高的方差）。我们在课程中了解到，折扣因子可以通过两种方式引入：第一种方式是对整条轨迹的奖励进行折扣： $\nabla_{θ} J (θ) \approx \frac{1}{N} \sum_{i = 1}^{N} (\sum_{t = 0}^{T - 1} \nabla_{θ} lo g π_{θ} (a_{i t} ∣ s_{i t})) (\sum_{t^{'} = 0}^{T - 1} γ^{t^{'} - t} r (s_{i t^{'}}, a_{i t^{'}}))$ 第二种方式是在“未来奖励”上应用折扣： $\nabla_{θ} J (θ) \approx \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 0}^{T - 1} \nabla_{θ} lo g π_{θ} (a_{i t} ∣ s_{i t}) (\sum_{t^{'} = t}^{T - 1} γ^{t^{'} - t} r (s_{i t^{'}}, a_{i t^{'}}))$

基线（Baseline）

另一种降低方差的方法是从奖励总和中减去一个基线（即关于轨迹 $τ$ 的常数项）： $\nabla_{θ} J (θ) = \nabla_{θ} E_{τ \sim π_{θ} (τ)} [r (τ) - b]$ 这样不会改变策略梯度的无偏性，因为： $\nabla_{θ} E_{τ \sim π_{θ} (τ)} [b] = E_{τ \sim π_{θ} (τ)} [\nabla_{θ} lo g π_{θ} (τ) \cdot b] = 0$ 有了无偏性，可以利用这个项来降低方差，即求：

Va r [u_{t} (G_{t} - b)] 最小

在本任务中，我们将实现一个值函数 $V_{ϕ}^{π}$ ，作为状态依赖的基线。该值函数将被训练以近似从某个特定状态开始的未来奖励总和： $V_{ϕ}^{π} (s_{t}) = \frac{E [( G _{t} ) ∣∣ u _{t} ∣ ∣ ^{2} ∣ s _{t} ]}{E [ ∣∣ u _{t} ∣ ∣ ^{2} ∣ s _{t} ]} \approx \sum_{t^{'} = t}^{T - 1} E_{π_{θ}} [r (s_{t^{'}}, a_{t^{'}}) ∣ s_{t}]$ 因此，近似的策略梯度变为如下形式： $\nabla_{θ} J (θ) \approx \frac{1}{N} i = 1 \sum N t = 0 \sum T - 1 \nabla_{θ} lo g π_{θ} (a_{i t} ∣ s_{i t}) (t^{'} = t \sum T - 1 γ^{t^{'} - t} r (s_{i t^{'}}, a_{i t^{'}}) - V_{ϕ}^{π} (s_{i t}))$

广义优势估计（Generalized Advantage Estimation）

在之前策略梯度表达式中（为清晰起见省略了索引 $i$ ）的量： $(\sum_{t^{'} = t}^{T - 1} γ^{t^{'} - t} r (s_{t^{'}}, a_{t^{'}})) - V_{ϕ}^{π} (s_{t})$ 可以被解释为对优势函数 $A^{π} (s_{t}, a_{t})$ 的估计： $A^{π} (s_{t}, a_{t}) = Q^{π} (s_{t}, a_{t}) - V^{π} (s_{t})$ 其中 $Q^{π} (s_{t}, a_{t})$ 通过蒙特卡洛回报进行估计，而 $V^{π} (s_{t})$ 则使用学习到的价值函数 $V_{ϕ}^{π}$ 进行估计。我们可以进一步降低方差，通过使用 $V_{ϕ}^{π}$ 在蒙特卡洛回报中的估计来估算优势函数： $A^{π} (s_{t}, a_{t}) \approx δ_{t} = r (s_{t}, a_{t}) + γ V_{ϕ}^{π} (s_{t + 1}) - V_{ϕ}^{π} (s_{t})$ 其中边界情况为 $δ_{T - 1} = r (s_{T - 1}, a_{T - 1}) - V_{ϕ}^{π} (s_{T - 1})$ 。然而，这可能会以引入偏差为代价影响我们对策略梯度的估计，因为 $V_{ϕ}^{π}$ 是从数据中学习得到的。我们可以改用 $n$ 步蒙特卡洛回报和 $V_{ϕ}^{π}$ 的组合来估计优势函数： $A_{n}^{π} (s_{t}, a_{t}) = \sum_{t^{'} = t}^{t + n} γ^{t^{'} - t} r (s_{t^{'}}, a_{t^{'}}) + γ^{n} V_{ϕ}^{π} (s_{t + n + 1}) - V_{ϕ}^{π} (s_{t})$ 增加 $n$ 会使蒙特卡洛回报在优势估计中占比更大，从而降低偏差但增加方差；减小 $n$ 则相反。注意当 $n = T - t - 1$ 时，恢复为无偏但高方差的蒙特卡洛优势估计（如公式 (13) 所示）；而当 $n = 0$ 时，则恢复为低方差但高偏差的优势估计 $δ_{t}$ 。我们可以将多个 $n$ 步优势估计以指数加权的方式组合起来，这种方法被称为广义优势估计（GAE）。令 $λ \in [0, 1]$ ，则定义： $A_{G A E}^{π} (s_{t}, a_{t}) = \frac{1 - λ ^{T - t - 1}}{1 - λ} \sum_{n = 1}^{T - t - 1} λ^{n - 1} A_{n}^{π} (s_{t}, a_{t})$ 其中 $\frac{1 - λ ^{T - t - 1}}{1 - λ}$ 是一个归一化常数。注意： $λ$ 越大，越强调具有更高 $n$ 值的优势估计； $λ$ 越小则相反。因此， $λ$ 作为偏差-方差权衡的控制参数：增大 $λ$ 会降低偏差但增加方差。在无限时间范围的情况（ $T = \infty$ ）下，我们有： $A_{G A E}^{π} (s_{t}, a_{t}) = \frac{1}{1 - λ} n = 1 \sum \infty λ^{n - 1} A_{n}^{π} (s_{t}, a_{t}) = t^{'} = t \sum \infty (γλ)^{t^{'} - t} δ_{t^{'}}$ 其中我们省略了推导过程以简洁起见（详见 GAE 论文）。在有限时间范围的情况下，我们可以写成： $A_{G A E}^{π} (s_{t}, a_{t}) = \sum_{t^{'} = t}^{T - 1} (γλ)^{t^{'} - t} δ_{t^{'}}$ 这提供了一种高效实现广义优势估计的方法，因为我们可以通过递归计算： $A_{G A E}^{π} (s_{t}, a_{t}) = δ_{t} + γλ A_{G A E}^{π} (s_{t + 1}, a_{t + 1})$

知言的博客

探索