深度 RL

进入深度 RL 后，model free 方法开始变得愈发重要，因为对真实世界建模绝非易事。

价值函数

当动作，状态空间无限扩大后，没有了一个表格式的 model 后，最重要的问题是如何表达原来查表可得到的价值函数 $q (s, a)$ 来指导动作选取。可以使用函数来状态动作价值函数的估计，在训练中采用近似参考值的方法来训练。

J (w) = E [(v_{π} (S) - \overset{v}{^} (S, w))^{2}],

这个目标函数期望是按照随机变量 $S \in S$ 来计算的， $S$ 的分布情况会影响期望的计算。有两种方法来规定 $S$ 的分布：

第一种是平均分布，平等地对待每一个状态，赋予 $\frac{1}{n}$ 的权重：

J ( w) = \frac{1}{π} s \in S \sum (ν_{π} (s) - \overset{υ}{^} (s, w))^{2} .

但是这种方法有一种平均主义的问题：把所有状态都等权计算，这让很少访问到的状态同经常访问到的状态一样重要。

第二种是这章的重点，是应用稳态分布（stationary distribution）。如果你记录 agent 在足够多步里分别待在每个状态的比例，这个比例就近似于 stationary distribution $d_{π} (s)$ ，满足 $\sum_{s} d_{π} (s) = 1$ 。形式上来说，策略 $π$ 作用于 MDP 后，状态的转移构成一条马尔可夫链，其转移矩阵为：

P_{π} (s^{'} ∣ s) = a \sum π (a ∣ s) p (s^{'} ∣ s, a)

如果一个分布 $d_{π}$ 满足：

d_{π} (s^{'}) = s \sum d_{π} (s) P_{π} (s^{'} ∣ s)

也就是说，用 $d_{π}$ 作为当前分布，经过一步转移后分布不变，那它就是 stationary distribution。

J (w) = s \in S \sum d_{π} (s) (v_{π} (s) - \overset{v}{˙} (s, w))^{2},

有了目标函数即可利用梯度下降来求函数参数的最优值：

w_{k + 1} = w_{k} - α_{k} \nabla_{w} J (w_{k}), = \nabla_{w} E [(v_{π} (S) - \overset{v}{^} (S, w_{k}))^{2}] = E [\nabla_{w} (v_{π} (S) - \overset{v}{^} (S, w_{k})) (- \overset{v}{^} (S, w_{k}))^{2}] = - 2 E [(v_{π} (S) - \overset{v}{^} (S, w_{k})) \nabla_{w} \overset{v}{^} (S, w_{k})] . = w_{k} + 2 α_{k} E [(v_{π} (S) - \overset{v}{^} (S, w_{k})) \nabla_{w} \overset{v}{^} (S, w_{k})],

Algorithm 8.1: TD learning of state values with function approximation Initialization: A function \overset{v}{^} (s, w) that is differentiable in w . Initial parameter w_{0} . Goal: Learn the true state values of a given policy π . For each episode {s_{t}, r_{t + 1}, s_{t + 1}}_{t} generated by π, do For each sample (s_{t}, r_{t + 1}, s_{t + 1}), do In the general case, w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ \overset{v}{^} (s_{t + 1}, w_{t}) - \overset{v}{^} (s_{t}, w_{t})] \nabla_{w} \overset{v}{^} (s_{t}, w_{t}) In the linear case, w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ ϕ^{T} (s_{t + 1}) w_{t} - ϕ^{T} (s_{t}) w_{t}] ϕ (s_{t})

而这些公式中的 $v_{π} (s)$ 表示的是真实的奖励函数，我们无法获取这个值，只能通过对每个 episode 的值进行采样获得。从每个 episode 中采样获得价值函数的方式也有两个，一是 MC 方法，而是 TD 方法。这两个方法均可以从Model free 基础方法中找到。

而状态价值估计到动作价值估计的外推是相当直接的，如同上一章Model free 基础方法中 Sarsa 方法的提出，函数近似的 Sarsa 也是相当好得到的：

w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ \overset{q}{^} (s_{t + 1}, a_{t + 1}, w_{t}) - \overset{q}{^} (s_{t}, a_{t}, w_{t})] \nabla_{w} \overset{q}{^} (s_{t}, a_{t}, w_{t}) .

Algorithm 8.2: Sarsa with function approximation Initialization: Initial parameter w_{0} . Initial policy π_{0} . α_{t} = α > 0 for all t . ϵ \in (0, 1) . Goal: Learn an optimal policy that can lead the agent to the target state from an initial state s_{0} . For each episode, do Generate a_{0} at s_{0} following π_{0} (s_{0}) If s_{t} (t = 0, 1, 2, \dots) is not the target state, do Collect the experience sample (r_{t + 1}, s_{t + 1}, a_{t + 1}) given (s_{t}, a_{t}) : generate r_{t + 1}, s_{t + 1} by interacting with the environment; generate a_{t + 1} following π_{t} (s_{t + 1}) . Update q -value: w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ \overset{q}{^} (s_{t + 1}, a_{t + 1}, w_{t}) - \overset{q}{^} (s_{t}, a_{t}, w_{t})] \nabla_{w} \overset{q}{^} (s_{t}, a_{t}, w_{t}) Update policy: π_{t + 1} (a ∣ s_{t}) = 1 - \frac{ϵ}{∣ A ( s _{t} ) ∣} (∣ A (s_{t}) ∣ - 1) if a = ar g max_{a \in A (s_{t})} \overset{q}{^} (s_{t}, a, w_{t + 1}) π_{t + 1} (a ∣ s_{t}) = \frac{ϵ}{∣ A ( s _{t} ) ∣} otherwise s_{t} \leftarrow s_{t + 1}, a_{t} \leftarrow a_{t + 1}

Q-learning 也是一样的思路：

w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ a \in A (s_{t + 1}) max \overset{q}{^} (s_{t + 1}, a, w_{t}) - \overset{q}{^} (s_{t}, a_{t}, w_{t})] \nabla_{w} \overset{q}{^} (s_{t}, a_{t}, w_{t}) .

Algorithm 8.3: Q-learning with function approximation (on-policy version) Initialization: Initial parameter w_{0} . Initial policy π_{0} . α_{t} = α > 0 for all t . ϵ \in (0, 1) . Goal: Learn an optimal path that can lead the agent to the target state from an initial state s_{0} . For each episode, do If s_{t} (t = 0, 1, 2, \dots) is not the target state, do Collect the experience sample (a_{t}, r_{t + 1}, s_{t + 1}) given s_{t} : generate a_{t} following π_{t} (s_{t}); generate r_{t + 1}, s_{t + 1} by interacting with the environment. Update q -value: w_{t + 1} = w_{t} + α_{t} [r_{t + 1} + γ max_{a \in A (s_{t + 1})} \overset{q}{^} (s_{t + 1}, a, w_{t}) - \overset{q}{^} (s_{t}, a_{t}, w_{t})] \nabla_{w} \overset{q}{^} (s_{t}, a_{t}, w_{t}) Update policy: π_{t + 1} (a ∣ s_{t}) = 1 - \frac{ϵ}{∣ A ( s _{t} ) ∣} (∣ A (s_{t}) ∣ - 1) if a = ar g max_{a \in A (s_{t})} \overset{q}{^} (s_{t}, a, w_{t + 1}) π_{t + 1} (a ∣ s_{t}) = \frac{ϵ}{∣ A ( s _{t} ) ∣} otherwise

Deep Q-learning

DQN 就是指使用了神经网络作为奖励函数的 Q-learning，整体上和上文中讲的 Q-learning with function approximation 相差不大。要求的目标函数：

J = E [(R + γ a \in A (S^{'}) max \overset{q}{^} (S^{'}, a, w) - \overset{q}{^} (S, A, w))^{2}],

这个方程可以被视为平方贝尔曼最优误差，因为下列方程可以被视为贝尔曼最优方程:

q (s, a) = E [R_{t + 1} + γ a \in A (S_{t + 1}) max q (S_{t + 1}, a) ∣ S_{t} = s, A_{t} = a], for all s, a

然后对 $J$ 求梯度下降

\nabla_{w} J = - E [(R + γ a \in A (S^{'}) max \overset{q}{^} (S^{'}, a, w) - \overset{q}{^} (S, A, w)) \nabla_{w} \overset{q}{^} (S, A, w)],

在利用梯度下降求解的同时需要一些技巧来使得训练更加稳定。

第一：Experience Replay

Algorithm 8.3 每收集一个 $(s_{t}, a_{t}, r_{t + 1}, s_{t + 1})$ 就立刻拿来更新 $w$ ，用完就扔。问题是连续的样本之间高度相关—— $s_{t}$ 和 $s_{t + 1}$ 往往很像，这相当于给神经网络连续喂很相似的数据，容易导致训练不稳定。

DQN 把所有经验存进一个 replay buffer，更新时从中随机抽一个 mini-batch。这样一个 batch 里的样本来自不同时刻不同状态，相关性被打破，训练就稳定得多。

第二：Target Network

Algorithm 8.3 的更新目标是 $r_{t + 1} + γ max_{a} \overset{q}{^} (s_{t + 1}, a, w_{t})$ ，注意这里的 $w_{t}$ 和被更新的参数是同一个。也就是你每更新一步 $w$ ，target 也跟着变了，等于目标一直在动，优化器在追一个移动的靶子。

DQN 维护一个额外的 target network $w^{-}$ ，隔一段时间才从主网络复制参数过来。更新目标变成 $r + γ max_{a} \overset{q}{^} (s^{'}, a, w^{-})$ ，这样 target 在一段时间内是固定的，优化更稳定。即对下列公式求梯度：

\nabla_{w} J = - E [(R + γ a \in A (S^{'}) max \overset{q}{^} (S^{'}, a, w^{-}) - \overset{q}{^} (S, A, w)) \nabla_{w} \overset{q}{^} (S, A, w_{t})],

Algorithm 8.3: Deep Q-learning (off-policy version) Initialization: A main network and a target network with the same initial parameter. Goal: Learn an optimal target network to approximate the optimal action values from the experience samples generated by a given behavior policy π_{b} . Store the experience samples generated by π_{b} in a replay buffer B = {(s, a, r, s^{'})} For each iteration, do Uniformly draw a mini-batch of samples from B For each sample (s, a, r, s^{'}), calculate the target value as y_{T} = r + γ max_{a \in A (s^{'})} \overset{q}{^} (s^{'}, a, w_{T}), where w_{T} is the parameter of the target network Update the main network to minimize (y_{T} - \overset{q}{^} (s, a, w))^{2} using the mini-batch of samples Set w_{T} = w every C iterations

Policy Gradiant

本文前部分讲了如何把奖励函数由表格变为函数，此前讲解的策略也大部分是通过查表选最大值的表格形式，深度 RL 也需要将策略转为函数形式： $π (a ∣ s, θ), θ \in R^{m}$ 。这个函数可能是接受一个 $(s, a)$ 输出下一步策略，也可能是输入 $s$ 输出动作空间中的全部策略。

随之而来的问题是如何权衡最优的策略？在表格中，最优策略可以找到：让每一个状态的 value 都最大。这可以做到，因为存在一个策略同时在所有状态上最优。但是在参数化的策略中，参数维度有限，你没法让每个状态的 value 都同时最大。这时候你需要一个 单一的数字来评价整个策略的好坏，然后对这个数字做梯度上升。这个数字就是 scalar metric $J (θ)$ 。更新策略也从直接修改表格值变为更新函数权重。

定义好 scalar metric $J (θ)$ ，就可以通过Model free 基础方法中讲到的随机近似方法来去最优参数：

θ_{t + 1} = θ_{t} + α \nabla_{θ} J (θ_{t}),

定义这个 scalar metric 很重要，一般有几种定义方式：

第一种是平均状态价值：

\overset{v}{ˉ}_{π} = E_{S \sim d} [v_{π} (S)] .

此处关于 $d$ 的分布可以是平均分布，即 $d_{0} (s) = 1/∣ S ∣$ 或者对一个特定的状态感兴趣的话，比如总是从一个状态出发则可以使 $d (s_{0}) = 1, d_{0} (s \neq = s_{0}) = 0$ 。

也可以是静态分布，即上文讲的，找到 $d_{π}^{I} P_{π} = d_{π}^{I}$ ，后利用这个分布计算。静态分布会带来很多有利于推导的性质：

$J (θ) = E [\sum_{t = 0}^{\infty} γ^{t} R_{t + 1}] = \overset{v}{ˉ}_{π} = \sum_{s} d (s) v_{π} (s)$ 即目标函数是关于奖励函数的加权平均，而奖励函数是回报的累计折扣回报期望；
$\overset{v}{ˉ}_{π} = d^{T} v_{π}$ 这是把求和写成向量内积的形式。它的用处是方便后面求梯度。

第二种方法是平均回报值：

J (θ) = n \to \infty lim \frac{1}{n} E [t = 0 \sum n - 1 R_{t + 1}]

这个式子可以化成：

n \to \infty lim \frac{1}{n} E [t = 0 \sum n - 1 R_{t + 1}] = s \in S \sum d_{π} (s) r_{π} (s) = \overset{r}{ˉ}_{π} = s \in S \sum d_{π} (s) r_{π} (s) = E_{S \sim d_{π}} [r_{π} (S)] = d_{π}^{T} r_{π}

可以注意到平均回报值是严格依赖策略的静态分布的，因为他就是沿着策略求平均回报，并且其不带衰减，这使得这种目标函数相比第一种更加远视，适用于无终止的任务。

Metric \overset{v}{ˉ}_{π} \overset{r}{ˉ}_{π} Expression 1 s \in S \sum d (s) v_{π} (s) s \in S \sum d_{π} (s) r_{π} (s) Expression 2 E_{S \sim d} [v_{π} (S)] E_{S \sim d_{π}} [r_{π} (S)] Expression 3 n \to \infty lim E [t = 0 \sum n - 1 γ^{t} R_{t + 1}] n \to \infty lim \frac{1}{n} E [t = 0 \sum n - 1 R_{t + 1}]

metircs 的梯度

定义好了目标函数 $J (θ)$ ，下一步就是对其求梯度。这部分的核心结论是策略梯度定理（Policy Gradient Theorem）：

\nabla_{θ} J (θ) = s \in S \sum η (s) a \in A \sum \nabla_{θ} π (a ∣ s, θ) q_{π} (s, a),

其中 $η$ 是状态分布， $\nabla_{θ} π$ 是策略对参数的梯度。更实用的是它的紧凑期望形式：

\nabla_{θ} J (θ) = E_{S \sim η, A \sim π (S, θ)} [\nabla_{θ} ln π (A, S, θ) q_{π} (S, A)] .

期望形式更受偏爱，原因是它可以用随机梯度来近似——用采样代替精确期望，这正是本章要讨论的内容。

为什么可以这么变形？ 关键在于一个对数求导技巧：

\nabla_{θ} ln π (a ∣ s, θ) = \frac{\nabla _{θ} π ( a ∣ s , θ )}{π ( a ∣ s , θ )},

因此：

\nabla_{θ} π (a ∣ s, θ) = π (a ∣ s, θ) \nabla_{θ} ln π (a ∣ s, θ) .

将这个代入原始的求和式， $π (a ∣ s, θ)$ 就把对 $a$ 的求和自然地转成了对策略的期望，从而得到上面的紧凑形式。

另一个需要注意的前提是： $π (a ∣ s, θ)$ 对所有 $(s, a)$ 必须严格为正，这样 $ln π$ 才有意义。实现这一点的标准做法是用 softmax 函数：

π (a ∣ s, θ) = \frac{e ^{h (s, a, θ)}}{\sum _{a^{'} \in A} e ^{h (s, a^{'}, θ)}}, a \in A,

其中 $h (s, a, θ)$ 是神经网络输出的偏好值。Softmax 天然满足 $π \in (0, 1)$ 且所有动作概率之和为 1，同时让策略保持随机性，这意味着策略会持续探索而不会提前坍缩成确定性选择——这是一个自带探索的好性质。

注意

书中从200页至210页左右推导不同的 metric 形式的导数，包括：

Average statue value $\overset{v}{ˉ}_{π} = \sum_{s} d (s) v_{π} (s)$ ：包括静态分布和与策略无关 $d_{0}$ 两种分布

Average reward $\overset{r}{ˉ}_{π} = \sum_{s} d_{π} (s) r_{π} (s)$

然后按照是否是 discount 分类：

undiscounted $γ < 1$ ：Lemma 9.1 证明 $\overset{r}{ˉ}_{π} = (1 - γ) \overset{v}{ˉ}_{π}$ ，所以两个 metric 等价，梯度方向一样。Theorem 9.2 给出 $\overset{v}{ˉ}_{π}$ 的梯度，Theorem 9.3 给出 $\overset{r}{ˉ}_{π}$ 的梯度。

Undiscounted（ $g amma = 1$ ）： $\sum R_{t}$ 会发散，必须重新定义 $v_{π} (s)$ （每步减去 $\overset{r}{ˉ}_{π}$ ，即 Poisson equation），然后推出 Theorem 9.5。

三种情况推出来的梯度形式几乎一样，全部被 Theorem 9.1 统一，此处省略。

θ_{t + 1} = θ_{t} + α \nabla_{θ} J (θ_{t}) = θ_{t} + α E [\nabla_{θ} ln π (A ∣ S, θ_{t}) q_{π} (S, A)],

由于真正的梯度是不知道的，所以我们可以通过用采样的方式来随机近似逼近真实的最优参数：

θ_{t + 1} = θ_{t} + α \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) q_{t} (s_{t}, a_{t}),

用 $q_{t} (s_{t}, a_{t})$ 来近似 $q_{π} (s_{t}, a_{t})$ 。如果前者是通过蒙特卡洛方法得到的估计，这个算法就叫作 REINFORCE 或者 Monte Carlo policy gradient 。

因为 $\nabla ln π (a_{t} ∣ s_{t}, θ_{t}) = \frac{q _{t} ( s _{t} , a _{t} )}{π ( a _{t} ∣ s _{t} , θ _{t} )}$ ，可以把上式重新写成：

θ_{t + 1} = θ_{t} + α β_{t} (\frac{q _{t} ( s _{t} , a _{t} )}{π ( a _{t} ∣ s _{t} , θ _{t} )}) \nabla_{θ} π (a_{t} ∣ s_{t}, θ_{t}),

则当 $β_{t} \geq 0$ 时，选择 $(s_{t}, a_{t})$ 的概率提升：

π (a_{t} ∣ s_{t}, θ_{t + 1}) \geq π (a_{t} ∣ s_{t}, θ_{t}) .

反之，当 $β_{t} < 0$ 时，选择 $(s_{t}, a_{t})$ 的概率下降：

π (a_{t} ∣ s_{t}, θ_{t + 1}) < π (a_{t} ∣ s_{t}, θ_{t}) .

$β_{t} = \frac{q _{t} ( s _{t} , a _{t} )}{π ( a _{t} ∣ s _{t} , θ _{t} )}$ 同时包含了 exploit 和 explore 两个效果。

Exploit 来自分子 $q_{t} (s_{t}, a_{t})$ ： $q$ 值越大， $β_{t}$ 越大，更新幅度越猛，这个动作的概率被提升得越多。所以算法倾向于强化高回报的动作，这就是 exploitation。

Explore 来自分母 $π (a_{t} ∣ s_{t}, θ_{t})$ ：假设某个动作 $q > 0$ 但当前概率很低，那分母小， $β_{t}$ 就会被放大。也就是说，一个被冷落但实际不错的动作，反而会得到更强的概率提升。反过来，一个已经高概率的好动作，分母大， $β_{t}$ 被压小，提升幅度不会太大。

Algorithm 9.1: Policy Gradient by Monte Carlo (REINFORCE) Initialization: Initial parameter θ; γ \in (0, 1); α > 0. Goal: Learn an optimal policy for maximizing J (θ) . For each episode, do Generate an episode {s_{0}, a_{0}, r_{1}, \dots, s_{T - 1}, a_{T - 1}, r_{T}} following π (θ) . For t = 0, 1, \dots, T - 1 : Value update: q_{t} (s_{t}, a_{t}) = k = t + 1 \sum T γ^{k - t - 1} r_{k} Policy update: θ \leftarrow θ + α \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ) q_{t} (s_{t}, a_{t})

Actor-critic

现在所学的策略大致分为两种： policy-based 和 value based。前者比如 REINFORCE，Policy Gradiant 算法是直接更新模型参数，后者比如 DQN，Q-learning 直接更新价值函数。

现在的随机近似方法也大致分为两类：蒙特卡罗方法和 TD learning。上一章讲的 REINFORCE和 Policy Gradiant 都是蒙特卡洛方法，当把 TD 基础的近似方法用于 Policy gradiant 算法后可以得出 Actor-critic 算法。

Algorithm 10.1: The simplest actor-critic algorithm (QAC) Initialization: A policy function π (a ∣ s, θ_{0}) where θ_{0} is the initial parameter. A value function q (s, a, w_{0}) where w_{0} is the initial parameter. α_{w}, α_{θ} > 0. Goal: Learn an optimal policy to maximize J (θ) . At time step t in each episode, do Generate a_{t} following π (a ∣ s_{t}, θ_{t}), observe r_{t + 1}, s_{t + 1}, and then generate a_{t + 1} following π (a ∣ s_{t + 1}, θ_{t}) . Actor (policy update): θ_{t + 1} = θ_{t} + α_{θ} \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) q (s_{t}, a_{t}, w_{t}) Critic (value update): w_{t + 1} = w_{t} + α_{w} [r_{t + 1} + γ q (s_{t + 1}, a_{t + 1}, w_{t}) - q (s_{t}, a_{t}, w_{t})] \nabla_{w} q (s_{t}, a_{t}, w_{t})

这个算法就是将 TD base 近似方法代入了 Policy Gradiant 后加上了一个 Sarsa 算法来更新价值函数。也就是 QAC 使用 Sarsa 算法提供的 Q 值来更新策略神经网络，相比 REINFORCE 算法直接采样一个很长的 Q 值来更新，这个算法用 Sarsa 提供的期望 Q 值来更新策略神经网络，这极大减小了方差。

上式中的 Sarsa 和前几章讲解的表格式 Sarsa 更新方式不一样，因为这个 Sarsa 也是函数式的，采用减小平方误差的方式来优化：

w_{t + 1} = w_{t} + α_{w} TD error δ_{t} [r_{t + 1} + γ q (s_{t + 1}, a_{t + 1}, w_{t}) - q (s_{t}, a_{t}, w_{t})] \nabla_{w} q (s_{t}, a_{t}, w_{t})

优势 Actor-Critic

Advantage actor-critic(A2C) 的核心思想就是通过引入一个 baseline 来减小估计的方差，即：

E_{S \sim η, A \sim π} [\nabla_{θ} ln π (A ∣ S, θ) q_{π} (S, A)] = E_{S \sim η, A \sim π} [\nabla_{θ} ln π (A ∣ S, θ) (q_{π} (S, A) - b (S))]

在末尾加上一个参数不会改变期望值，因为：

E_{S \sim η, A \sim π} [\nabla_{θ} ln π (A ∣ S, θ_{t}) b (S)] = s \in S \sum η (s) a \in A \sum π (a ∣ s, θ_{t}) \nabla_{θ} ln π (a ∣ s, θ_{t}) b (s) = s \in S \sum η (s) a \in A \sum \nabla_{θ} π (a ∣ s, θ_{t}) b (s) = s \in S \sum η (s) b (s) a \in A \sum \nabla_{θ} π (a ∣ s, θ_{t}) = s \in S \sum η (s) b (s) \nabla_{θ} a \in A \sum π (a ∣ s, θ_{t}) = s \in S \sum η (s) b (s) \nabla_{θ} 1 = 0.

但是可以有效改变方差，可以证明最优的 baseline 是：

b^{*} (s) = \frac{E _{A \sim π} [ ∥ \nabla _{θ} ln π ( A ∣ s , θ _{t} ) ∥ ^{2} q _{π} ( s , A ) ]}{E _{A \sim π} [ ∥ \nabla _{θ} ln π ( A ∣ s , θ _{t} ) ∥ ^{2} ]} . s \in S

但是这个基线计算太复杂了o，如果将 $∥ \nabla_{θ} ln π (A ∣ s, θ_{t}) ∥^{2}$ 删掉，也可以得到一个次优的基线：

b^{†} (s) = E_{A \sim π} [q_{π} (s, A)] = v_{π} (s) .

证明见书P.219。

引入基线后，更新方式变为了：

θ_{t + 1} = θ_{t} + α E [\nabla_{θ} ln π (A ∣ S, θ_{t}) (q_{π} (S, A) - v_{π} (S))] ≐ θ_{t} + α E [\nabla_{θ} ln π (A ∣ S, θ_{t}) δ_{π} (S, A)] .

其中 $δ_{π} (S, A) ≐ q_{π} (S, A) - v_{π} (S)$ ，这被称为优势函数，这个更新的随机方式为：

θ_{t + 1} = θ_{t} + α \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) [q_{t} (s_{t}, a_{t}) - v_{t} (s_{t})] = θ_{t} + α \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) δ_{t} (s_{t}, a_{t}),

即 A2C 不再看一个动作的绝对回报，而是看这个动作相对这个状态平均回报的相对值，直觉上来讲降低了方差。当 $q_{t} (s_{t}, a_{t})$ 和 $v_{t} (s_{t})$ 是通过蒙特卡罗方法估计的时候，这个策略叫作 REINFORCE with baseline，当两者是由 TD learning 估计的时候，这个算法才被叫作 A2C。

同时可以注意到这里的优势函数是由 TD error 近似而来的：

q_{t} (s_{t}, a_{t}) - v_{t} (s_{t}) q_{π} (s_{t}, a_{t}) - v_{π} (s_{t}) \approx r_{t + 1} + γ v_{t} (s_{t + 1}) - v_{t} (s_{t}) . = E [R_{t + 1} + γ v_{π} (S_{t + 1}) - v_{π} (S_{t}) S_{t} = s_{t}, A_{t} = a_{t}],

这使得我们可以仅靠维持一个神经网络追踪优势值就可以运行算法，而不是同时运行两个神经网络。当基线使用的是 TD error 的时候算法也可以被叫作 TD actor-critic。

Algorithm 10.2: Advantage actor-critic (A2C) or TD actor-critic Initialization: A policy function π (a ∣ s, θ_{0}) where θ_{0} is the initial parameter. A value function v (s, w_{0}) where w_{0} is the initial parameter. α_{w}, α_{θ} > 0. Goal: Learn an optimal policy to maximize J (θ) . At time step t in each episode, do Generate a_{t} following π (a ∣ s_{t}, θ_{t}) and then observe r_{t + 1}, s_{t + 1} . Advantage (TD error): δ_{t} = r_{t + 1} + γ v (s_{t + 1}, w_{t}) - v (s_{t}, w_{t}) Actor (policy update): θ_{t + 1} = θ_{t} + α_{θ} δ_{t} \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) Critic (value update): w_{t + 1} = w_{t} + α_{w} δ_{t} \nabla_{w} v (s_{t}, w_{t})

off-policy policy gradient

Policy based 算法基本上天生就是 On policy 的算法，如果没有针对自己的 Policy 求梯度的话，就不是针对自己的策略优化，这使得一个 Policy 只能针对现在的参数生成的轨迹求梯度，变了点参数又不能用了，使得 on-policy 的策略利用率较低。

从直觉上来说，因为 AC 是利用下一个动作的 $q (a, c)$ 来优化动作的，所以只要两个策略对于同一个状态的动作状态价值函数 $q (s, a)$ 是一样的话，在一个状态的到的导数应该是一样的，只不过因为取到这个动作的概率和这个状态在静态分布中的概率不同，所以乘上不同概率的权重即可：

要求的分布 E_{S \sim d_{π}, A \sim π} f (S, A, θ) ：给定 (s, a) 后是确定的 \nabla_{θ} ln π (A ∣ S, θ) \cdot q_{π} (S, A) = E_{S \sim d_{β}, A \sim β} [\frac{π ( A ∣ S )}{β ( A ∣ S )} \cdot f (S, A, θ)]

但是上述要求的 $q_{π} (a, c) = q_{β} (a, c)$ 并不被 Sarsa 满足，有几种方法：第一种，critic 改用 Q-learning（ $r_{t + 1} + γ max_{a^{'}} q (s_{t + 1}, a^{'}, w)$ ）。这样 critic 估计的是 $q_{*}$ ，不依赖任何策略，天然 off-policy。

第二种，critic 也加 importance sampling 修正。在 TD target 里对后续动作的采样也乘权重，让估计值收敛到 $q_{π}$ 而非 $q_{β}$ 。

第三种，也是实践中最主流的：让 $β$ 和 $π$ 不要差太远。PPO 就是这个思路—— $β$ 是上一轮的旧策略 $π_{old}$ ，用 clipping 保证新旧策略差距小，这样 $q_{π_{old}} \approx q_{π}$ ，误差可控。严格说不完全对，但实践中足够好。

Algorithm 10.3: Off-policy actor-critic based on importance sampling Initialization: A given behavior policy β (a ∣ s) . A target policy π (a ∣ s, θ_{0}) where θ_{0} is the initial parameter. A value function v (s, w_{0}) where w_{0} is the initial parameter. α_{w}, α_{θ} > 0. Goal: Learn an optimal policy to maximize J (θ) . At time step t in each episode, do Generate a_{t} following β (s_{t}) and then observe r_{t + 1}, s_{t + 1} . Advantage (TD error): δ_{t} = r_{t + 1} + γ v (s_{t + 1}, w_{t}) - v (s_{t}, w_{t}) Actor (policy update): θ_{t + 1} = θ_{t} + α_{θ} \frac{π ( a _{t} ∣ s _{t} , θ _{t} )}{β ( a _{t} ∣ s _{t} )} δ_{t} \nabla_{θ} ln π (a_{t} ∣ s_{t}, θ_{t}) Critic (value update): w_{t + 1} = w_{t} + α_{w} \frac{π ( a _{t} ∣ s _{t} , θ _{t} )}{β ( a _{t} ∣ s _{t} )} δ_{t} \nabla_{w} v (s_{t}, w_{t})

此处还有 Deterministic Policy Gradients 部分，但是目前和方向关系较弱，看了看没记笔记。

知言的博客

探索