MARL

在多个智能体的情况下进行强化学习，MDP和policy gradiant都不能很好胜任，因此Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning | PDF提出HATRPO/HAPPO训练方式。同时参考了Numerical Optimization

状态价值函数 $V_{π} (s)$

定义：

V_{π} (s) = E [t = 0 \sum \infty γ^{t} r_{t} s_{0} = s, a_{t} \sim π]

含义：
在初始状态为 $s$ 的条件下，遵循策略 $π$ 时，期望获得的 累计折扣回报。用来衡量某个状态本身的“好坏”。

状态-动作价值函数 $Q_{π} (s, a)$

定义：

$Q_{π} (s, a) = E [\sum_{t = 0}^{\infty} γ^{t} r_{t} s_{0} = s, a_{0} = a, a_{1 : \infty} \sim π]$

含义：
在状态 $s$ 下先执行动作 $a$ ，之后遵循策略 $π$ ，期望获得的 累计折扣回报。用来衡量某个动作在某个状态下的“好坏”。

策略目标函数 $J (π)$

定义：

$J (π) = E_{s_{0} \sim ρ_{0}} [V_{π} (s_{0})] = E_{s_{0} : \infty \sim ρ_{π}, a_{0} : \infty \sim π} [\sum_{t = 0}^{\infty} γ^{t} r_{t}]$

含义：
策略 $π$ 在 整个初始状态分布 $ρ_{0}$ 下的期望累计回报，是强化学习中需要最大化的最终目标。因此，我们的目标是最大化这个函数：(假定所有智能体共享同样的奖励函数)

J (π) ≜ E_{s_{0 : \infty} \sim ρ_{π}^{0 : \infty}, a_{0 : \infty} \sim π} [t = 0 \sum \infty γ^{t} r_{t}] .

同时定义 $A$ 优势函数，对于单智能体和多智能体，定义分别为：

A_{π} (s, a) = Q_{π} (s, a) - V_{π} (s)

A_{π}^{i 1 : m} (s, a^{j 1 : k}, a^{i 1 : m}) ≜ Q_{π}^{j 1 : k, i 1 : m} (s, a^{j 1 : k}, a^{i 1 : m}) - Q_{π}^{j 1 : k} (s, a^{j 1 : k}) .

信赖域算法

信赖域方法是一类用于数值优化的迭代算法。它的核心思想是：

在每一步迭代时，不是直接在全局搜索下降方向，而是在当前点附近建立一个局部近似模型（通常是二次模型），然后只在一个“可信”的区域（trust region）内对这个近似模型进行优化。定理：设 $π$ 是当前策略， $\overset{π}{ˉ}$ 是下一个候选策略。我们定义 $L_{π} (\overset{π}{ˉ}) = J (π) + E_{s \sim ρ_{π}, a \sim \overset{π}{ˉ}} [A_{π} (s, a)]$ ， $D_{K L}^{ma x} (π, \overset{π}{ˉ}) = max_{s} D_{K L} (π (\cdot ∣ s), \overset{π}{ˉ} (\cdot ∣ s))$ 。 $L$ 是用上一步的策略来构造近似下一步的奖励函数； $D$ 指 KL 散度（常写 $D_{KL}$ ），用来度量新旧策略的分布差，在信赖域法里作为约束/惩罚控制更新“别走太远”。那么以下不等式成立： $J (\overset{π}{ˉ}) \geq L_{π} (\overset{π}{ˉ}) - C D_{K L}^{ma x} (π, \overset{π}{ˉ})$ 其中 $C = \frac{4 γ m a x _{s, a} ∣ A _{π} ( s , a ) ∣}{( 1 - γ ) ^{2}}$ 所以当当前策略 $π$ 和下一步策略 $\overset{π}{ˉ}$ 距离很近的时候，只根据上一步推断出来的 $L_{π} (\overset{π}{ˉ})$ 会和 $J (\overset{π}{ˉ})$ 非常接近。所以agent可以通过信赖域来迭代其策略：

π_{k + 1} = ar g π max (L_{π_{k}} (π) - C D_{K L}^{m a x} (π_{k}, π)) .

但是这种方法并不实用，计算困难，论文提出TRPO算法，即： $θ_{k + 1} = ar g max_{θ} L_{π_{θ_{k}}} (π_{θ}), subject to E_{s \sim ρ_{π_{θ_{k}}}} [D_{K L} (π_{θ_{k}}, π_{θ})] \leq δ .$ 每一次迭代，TRPO在策略 $π_{θ_{k}}$ 构建一个KL球 $B_{δ} (π_{θ_{k}})$ ，使得 $L π_{θ_{k}} (π_{θ})$ 和真实奖励函数 $J (π_{θ})$ 相近。为了减轻计算散度的期望的计算负担，论文提出了PPO算法： $L_{π_{θ_{k}}}^{PPO} (π_{θ}) = E_{s \sim ρ_{π_{θ_{k}}}, a \sim π_{θ_{k}}} [min (\frac{π _{θ} ( a ∣ s )}{π _{θ_{k}} ( a ∣ s )} A_{π_{θ_{k}}} (s, a), clip (\frac{π _{θ} ( a ∣ s )}{π _{θ_{k}} ( a ∣ s )}, 1 - ε, 1 + ε) A_{π_{θ_{k}}} (s, a))] .$

$r_{θ} (s, a) = \frac{π _{θ} ( a ∣ s )}{π _{θ_{k}} ( a ∣ s )} A_{π_{θ_{k}}} (s, a)$ ：策略比（新/旧策略在同一 $(s, a)$ 上的相对概率）。
$A_{π_{θ_{k}}} (s, a)$ ：优势函数（常用 GAE 估计）。
$clip (r, 1 \pm ϵ) = min (max (r, 1 - ϵ), 1 + ϵ)$ ：把 $r$ 限制在 $[1 - ϵ, 1 + ϵ]$ 。
外层 $min (\cdot, \cdot)$ ：在“未裁剪值”和“裁剪后值”之间取更保守的那个，避免过度乐观。
$A > 0$ （动作优于平均）：希望增大其概率（ $r ↑$ ）。若 r>1+ϵr>1+\epsilon，被截断为 $(1 + ϵ) A$ ，通过 $min$ 限制上涨幅度。
$A < 0$ （动作劣于平均）：希望降低其概率（ $r ↓$ ）。若 $r < 1 - ϵ$ ，被截断为 $(1 - ϵ) A$ ，通过 $min$ 限制下跌幅度。

信赖域算法在MARL中的应用

一种原始的应用方法是直接共享参数，用聚合轨迹进行策略训练，这个方法由MAPPO提出： $L_{π_{θ_{k}}}^{M A PPO} (π_{θ}) = \sum_{i = 1}^{n} E_{s \sim ρ_{π_{θ_{k}}}, a \sim π_{θ_{k}}} [min (\frac{π _{θ} ( a ^{i} ∣ s )}{π _{θ_{k}} ( a ^{i} ∣ s )} A_{π_{θ_{k}}} (s, a), clip (\frac{π _{θ} ( a ^{i} ∣ s )}{π _{θ_{k}} ( a ^{i} ∣ s )}, 1 - ε, 1 + ε) A_{π_{θ_{k}}} (s, a))] .$ 但是MAPPO有致命的缺陷：参数共享决定了智能体只能有相同的action space，可能导致并不能找到最优策略。因此论文提出可以使用HAPPO和HATRPO算法。

多智能体的优势函数 在任何一个合作马可夫游戏中，给定一个联合策略 $π$ ，对于任何状态 $s$ ，以及任何智能体子集 $i_{1 : m}$ ，定义如下方程：

A_{π}^{i 1 : m} (s, a^{i 1 : m}) A_{π}^{ij} (s, a^{i 1 : j - 1}, a^{ij}) = j = 1 \sum m A_{π}^{ij} (s, a^{i 1 : j - 1}, a^{ij}) . = Q_{π} (s, a ({i 1 : j})) - Q_{π} (s, a ({i 1 : j - 1})) .

求和符号右侧式子表示一组代理 $i_{1 : m}$  同时把动作从“旧策略的基线动作”换成给定的新动作 $a^{i_{1 : m}}$ 时产生的联合优势（对旧策略 $π$ 而言）。
等式右侧表示前 $j - 1$ 个代理已用新动作 $a^{i_{1 : j - 1}}$ ，再让第 $j$ 个代理把动作改为 $a^{i_{j}}$ 所带来的边际优势；把这些边际优势从 $j = 1$ 到 $m$ 加起来，恰好等于“所有人一起改”的联合优势。设 π 是一个联合策略， $\overset{π}{ˉ}^{i 1 : m - 1} = \prod_{j = 1}^{m - 1} \overset{π}{ˉ}^{ij}$ 是其他代理 $i_{1 : m - 1}$ 的某个其他联合策略，而 $\overset{π}{^}^{im}$ 是代理 $i_{m}$ 的某个其他策略。那么 $L_{π}^{i 1 : m} (\overset{π}{ˉ}^{i 1 : m - 1}, \overset{π}{^}^{im}) ≜ E_{s \sim ρ_{π}, a^{i 1 : m - 1} \sim \overset{π}{ˉ}^{i 1 : m - 1}, a^{im} \sim \overset{π}{^}^{im}} [A_{π}^{im} (s, a^{i 1 : m - 1}, a^{im})]$ 请注意，对于任何 $\overset{π}{ˉ}^{i 1 : m - 1}$ ，我们有

L_{π}^{i 1 : m} (\overset{π}{ˉ}^{i 1 : m - 1}, π^{im}) = E_{s \sim ρ_{π}, a^{i 1 : m - 1} \sim \overset{π}{ˉ}^{i 1 : m - 1}, a^{im} \sim π^{im}} [A_{π}^{im} (s, a^{i 1 : m - 1}, a^{im})] = E_{s \sim ρ_{π}, a^{i 1 : m - 1} \sim \overset{π}{ˉ}^{i 1 : m - 1}} [E_{a^{im} \sim π^{im}} [A_{π}^{im} (s, a^{i 1 : m - 1}, a^{im})]] = 0

含义：在旧策略的状态分布 $π ρ_{π}$ 下，让前 $m - 1$ 个代理按 $\overset{π}{ˉ}$ 出动作，第 $i_{m}$ 个代理按 $\overset{π}{^}$ 出动作，计算“第 $i_{m}$ 个代理的边际优势”的期望。它是一个局部/代理目标，衡量“把第 $i_{m}$ 个体从旧策略换成 $\overset{π}{^}$ 的收益”，条件是其他体用 $\overset{π}{ˉ}$ 。即用每个智能体的更新策略的优势函数加和表示代理函数（在常见实践中）。

HATRPO/HAPPO

算法1使用的是散度 $D_{K L}^{ma x}$ ，难估计且不光滑。同TRPO中的方法，将这个约束转为

E_{s \sim ρ_{π_{θ_{k}}}} [D_{K L} (π_{θ_{k}}^{i_{m}} (\cdot ∣ s) ∥ π_{θ}^{i_{m}} (\cdot ∣ s))] \leq δ .

最后的目标变成了求以下这个目标的最大值：

θ_{k + 1}^{i_{m}} = ar g θ^{i_{m}} max E_{s \sim ρ_{π_{θ_{k}}}, a^{i 1 : m - 1} \sim π^{i 1 : m - 1}, a^{im} \sim π_{θ^{i_{m}}}^{im}} [A_{π_{θ_{k}}}^{im} (s, a^{i 1 : m - 1}, a^{im})], s u bj ec t t o E_{s \sim ρ_{π_{θ_{k}}}} [D_{K L} (π_{θ_{k}}^{im} (\cdot ∣ s) ∥ π_{θ^{i_{m}}}^{im} (\cdot ∣ s))] \leq δ .

然后同TRPO一样：

把目标在 $θ = θ_{k}^{i_{m}}$ 处做一阶近似，梯度记为 $g_{k}^{i_{m}}$ ；
把期望 $K L$ 在该点做二阶近似，Hessian 即 Fisher 信息矩阵 $H_{k}^{i_{m}} $ 。 $H_{k}^{i_{m}} = \nabla_{θ^{i_{m}}}^{2} E_{s \sim ρ_{π_{θ_{k}}}} [D_{K L} (π_{θ_{k}^{i_{m}}}^{i_{m}} (\cdot ∣ s), π_{θ^{i_{m}}}^{i_{m}} (\cdot ∣ s))]_{θ^{i_{m}} = θ_{k}^{i_{m}}}$

θ_{k + 1}^{i_{m}} = θ_{k}^{i_{m}} + α^{j} \frac{2 δ}{g _{k}^{i_{m}} ( H _{k}^{i_{m}} ) ^{- 1} g _{k}^{i_{m}}} .

最后一步是求 $E_{a^{i 1 : m - 1} \sim π_{θ_{k}^{i 1 : m - 1}}, a^{im} \sim π_{θ^{im}}^{im}} [A_{π_{θ_{k}}}^{im} (s, a^{i 1 : m - 1}, a^{im})],$ 之后没看懂总之 HAPPO的目标是最大化

E_{s \sim ρ_{π_{θ_{k}}}, a \sim π_{θ_{k}}} min \frac{π _{θ^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}{π _{θ_{k}^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )} M^{i 1 : m} (s, a), clip \frac{π _{θ^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}{π _{θ_{k}^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}, 1 \pm ϵ M^{i 1 : m} (s, a) .

知言的博客

探索

MARL

信赖域算法

信赖域算法在MARL中的应用

HATRPO/HAPPO

关系图谱

目录

反向链接