Imitation Learning

CS285_Notes.pdf 考虑一个离散MDP过程，有时间跨度 $T$ ，存在一个专家策略 $π^{*}$ ，模仿学习的目标是学习一个策略 $π^{θ}$ ，尽量模仿专家，使其满足：

E_{p_{π^{*}} (s)} π_{θ} (a \neq = π^{*} (s) ∣ s) = \frac{1}{T} t = 1 \sum T E_{p_{π^{*}} (s_{t})} π_{θ} (a_{t} \neq = π^{*} (s_{t}) ∣ s_{t}) \leq ε,

整体式子的意思是：

在专家生成的状态分布下，模仿策略 $π_{θ}$ 选择与专家动作不一致的概率，在所有时间步上的平均值，不超过某个小误差 $ε$ 。

也就是说， $π_{θ}$ 学得“看起来和专家差不多”，但允许有少量误差。

求证： $\sum_{s_{t}} ∣ p_{π_{θ}} (s_{t}) - p_{π^{*}} (s_{t}) ∣ \leq T ϵ$ . 证明思路：耦合+并集界

由题设得到每步“分歧事件”的概率约束令题设给出： $\frac{1}{T} \sum_{i = 1}^{T} Pr (E_{i}) \leq ϵ$ 故 $\sum_{i = 1}^{T} Pr (E_{i}) \leq T ϵ .$
耦合引理把分布差异变成“轨迹是否分叉”的概率
考虑一对耦合轨迹 $(s_{1}^{*}, a_{1}^{*}, \dots, s_{t}^{*})$ 与 $(s_{1}^{θ}, a_{1}^{θ}, \dots, s_{t}^{θ})$ ，
其中环境随机性共享。若在前 $t - 1$ 步里从未发生分歧事件 $E_{i}$ ，
则两条轨迹的状态在第 $t$ 步必相同：

\neg (i = 1 ⋃ t - 1 E_{i}) \Rightarrow s_{t}^{θ} = s_{t}^{*} .

由耦合引理（全变差距离上界）：

\frac{1}{2} s_{t} \sum ∣ p_{π_{θ}} (s_{t}) - p_{π^{*}} (s_{t}) ∣ \leq Pr [i = 1 ⋃ t - 1 E_{i}] .

Pr [i = 1 ⋃ t - 1 E_{i}] \leq i = 1 \sum t - 1 Pr (E_{i}) \leq i = 1 \sum T Pr (E_{i}) \leq (⋆) Tε .

s_{t} \sum ∣ p_{π_{θ}} (s_{t}) - p_{π^{*}} (s_{t}) ∣ \leq 2 Pr [i = 1 ⋃ t - 1 E_{i}] \leq 2 Tε .

这就证明了在专家分布下“平均每步分歧概率” $\leq ε$ 时，任意时刻 $t$ 的状态分布 $L_{1}$ 距离被 $2 Tε$ 上界控制。

代码部分

CS285的hw1的starter code为OpanAI gym中的Mujoco任务给到了一个专家策略，填充代码中的TODO部分以实现一个模仿学习。推荐按照顺序阅读以下几个文件：

对于某些文件，部分重要功能缺失，并用 TODO 标记。具体来说，你需要实现以下内容：

在MLP_policy.py中，用深度神经网络生成一个平均值和方差，用于生成正态分布并采用。然后在update中，采用MSE作为损失函数，把policy根据观察生成的action和expert生成的action进行损失计算，再用AdamW优化器优化，最后返回这个损失函数。

在utils.py中要求补全sample_trajectory这个函数，其中先是由模拟环境中初始化，然后根据模拟环境的观察输入policy中得到action拼成轨迹

其中由于Dagger要不断将新的数据纳入训练集，所以不能像普通LM那样采用静态的训练集，所以采用一个缓冲区来储存数据，在replay_buffer.py中