精细双臂协调

Morphologically Symmetric Reinforcement Learning for Ambidextrous Bimanual Manipulation | PDF

论文动机

论文想模仿人类的双手合作的案例，比如可以在简单的事上轻易地对称左右手所做的事但是在复杂的事情上可以专注于一只手的精细动作。先前的研究基本都是研究机器人腿部而少有研究手部的对称。

同时，通过RL进行双臂训练是一个很大的挑战：

高维观测和动作空间使得策略学习困难
奖励函数可能导致双臂不能同时获得最佳策略
精细的双手动作相当于多任务学习，虽然可以为每个子任务定义一个奖励函数但是调参复杂
RL为sim-to-real的gap和安全问题提出挑战

论文方法

针对以上问题，论文提出了一个双臂灵巧学习的强化学习框架SYMDEX(SYMmetric DEXterity)，并总结了以下创新点：

形态上包含对称的学习方式
可扩大泛化的多臂学习方案（通过把复杂精细任务拆成子任务分别进行强化学习后合成全局策略）
完整的sim-to-real转化

论文用马可夫决策过程(MDP)对系统进行建模，并用图论赋予此系统对称性。论文用POMDP定义了一个元组：

P = (S, A, τ, r, O, σ, γ)

$S, A, τ, r, γ$ : 和 MDP 相同
$O$ : 观测空间 (observation space)
$σ (o ∣ s, a)$ : 观测概率模型 (observation model)，即在状态 $s$ 下执行动作 $a$ ，智能体得到观测 $o$ 的概率关键区别:
在 POMDP 中，智能体 不能直接看到 $s$ ，只能通过 $σ$ 得到一个观测 $o$ 。
因此智能体需要维护一个 信念状态 (belief state)：即对真实状态 $s$ 的概率分布 $b (s)$ ，并根据贝叶斯法则不断更新。

同时利用图论的等变形和不变性使POMDP具有了对称性。

定义 A.5（ $G$ -等变和 $G$ -不变映射）。设 $X$ 和 $Y$ 是具有相同对称群 $G$ 的两个向量空间，分别带有群作用 $▹_{X}$ 和 $▹_{Y}$ 。一个映射 $f : X \mapsto Y$ 被称为 $G$ -等变的，如果它与群作用可交换，使得：

g ▹_{Y} y ρ_{Y} (g) f (x) = g ▹_{Y} f (x) = f (g ▹_{X} x), \forall x \in X, g \in G . = f (ρ_{X} (g) x) ⟺ X Y ▹_{X} X ↓ f ↓ f ▹_{Y} Y

$G$ -等变映射的一个特例是 $G$ -不变映射，它们与群作用可交换，并且具有平凡的输出群作用 $▹_{Y}$ ，使得 $ρ_{Y} (g) = I$ 对所有 $g \in G$ 成立。即：

y y = g ▹_{Y} f (x) = f (g ▹_{X} x), \forall x \in X, g \in G . = ρ_{Y} (g) f (x) = f (ρ_{X} (g) x) ⟺ X ▹_{X} X ↘ f ↓ f Y ▹_{Y} Y

将这个性质代入POMDP中： 定义 B.1（对称 POMDP）。一个 POMDP $(S, A, r, τ, ρ_{0}, γ, O, σ)$ 具有对称群 $G$ ，当状态空间 $S$ 和动作空间 $A$ 承认群作用 $(▹_{S})$ 和 $(▹_{A})$ ，且 $(r, τ, ρ_{0})$ (奖励函数)都是 $G$ -不变的。也就是说，对于每一个 $g \in G$ ， $s, s^{'} \in S$ ，和 $a \in A$ ，我们有：

τ (g ▹_{S} s^{'} ∣ g ▹_{S} s, g ▹_{A} a) ρ_{0} (g ▹_{S} s) r (g ▹_{S} s, g ▹_{A} a) = τ (s^{'} ∣ s, a), = ρ_{0} (s), = r (s, a) .

满足方程 (2) 的 POMDP 被约束为具有最优策略和价值函数，它们满足：

Policy G -equivariance g ▹_{A} π^{*} (σ (s)) Value function G -invariance V^{*} (σ (s)) = π^{*} (σ (g ▹_{S} s)), = V^{*} (σ (g ▹_{S} s)), \forall s \in S, g \in G . (参见 [20])

也就是利用这个性质，可以给让双臂机器人的任务和动作进行对调，比如论文中举出了一个打蛋的操作，分为拿着碗和打蛋两个子动作，通过群动作 $g_{r} ▹_{1}$ 来对agent-task对进行变换：

g_{r} ▹_{P} [(L, R, B E)] = [(L, R, g_{r} ▹_{K} B g_{r} ▹_{K} E)] = [L, R, E B] .

g_{r} ▹_{A} a := g_{r} ▹_{A} [a^{L} \sim π_{B} (o^{L,B}) a^{R} \sim π_{E} (o^{R,E})] = [a^{L} \sim g_{r} ▹_{A_{B}} π_{B} (o^{L,B}) a^{R} \sim g_{r} ▹_{A_{E}} π_{E} (o^{R,E})] = [a^{L} \sim π_{E} (σ^{L} (g_{r} ▹_{S} s, E)) a^{R} \sim π_{B} (σ^{R} (g_{r} ▹_{S} s, B))]

这个公式表示对原始动作进行群对称化操作 $g_{r} ▹_{A}$ 最后可以得到在另外一个臂上的观测空间的对称 $σ^{L} (g_{r} ▹_{S} s, E)$ ，同时对等变的任务策略和观测函数进行变化，导致镜像后的左臂的动作为原环境中右臂动作的对称版本，反之亦然。

同时这个操作适配多agent。

另外一个创新点是论文中提出的等变神经网络，使得策略学习具有对称性

g ▹_{A_{θ_{k}}} π_{k}^{θ_{k}} (o^{n, k}) = π_{k}^{θ_{k}} (g ▹_{O_{k}} σ^{n} (s, k)) = π_{k}^{θ_{k}} (σ^{(g ▹_{I} [k])} (g ▹_{S} s, k)), \forall (n, k) \in I, g \in G .

其中 $π_{k}^{θ_{k}}$ 就是等变神经网络， $θ_{k}$ 是神经网络的参数。满足

置换 agent 轴（ $n_{1} \leftrightarrow n_{2} $ ）
置换子任务轴（ $k_{1} \leftrightarrow k_{2}$ ）
对几何通道做符号翻转/通道交换 后输出结果完成相应变化

最后对策略遵从teacher-student范式进行蒸馏，获得全局参数。

知言的博客

探索

精细双臂协调

论文动机

论文方法

关系图谱

目录