双臂抓取

论文原文： (Learning Dexterous Bimanual Catch Skills through Adversarial-Cooperative Heterogeneous-Agent Reinforcement Learning | PDF)

实验动机

目前的机械臂策略缺少迅速准确的技巧，比如抓住高速物体，这同样也是训练多agent协调的方式。同时MARL为双臂机器人提供了强大的训练框架，使得多臂训练不再是训练多个机械臂的共享参数，而是针对每个机械臂的参数进行训练。

论文方法

论文为双臂抓物技巧训练提出了Heterogeneous(异质的)-Agent Reinforcement Learning方法并采用HAPPO作为优化目标。论文的主要成果是：

训练双臂抓取技巧
对抗-合作训练方式
用多物体验证

catcher/Thrower agent 文章创新点“异质”就体现于此，两个agent观测空间，动作空间和任务都不相同。对于catcher，它的观测空间是254维，而thrower的观测空间是所有物体的状态和catcher的状态。前者的动作空间是44维的，后者的动作空间只有6维。具体而言，thrower的策略是： $v = (v_{ba se} + ϵ) + v_{a c t i o n}, ϵ \sim U (- 0.5, 0.5)$ 系统设计 论文以MAPPO为目标优化： $E_{s \sim ρ_{π_{θ_{k}}}, a \sim π_{θ_{k}}} [min (\frac{π _{θ^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}{π _{θ_{k}^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )} M^{i 1 : m} (s, a), clip (\frac{π _{θ^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}{π _{θ_{k}^{i_{m}}}^{i_{m}} ( a ^{i_{m}} ∣ s )}, 1 \pm ε) M^{i 1 : m} (s, a))]$ 其中详细原理见MARL

对抗-奖励奖励函数 通过设计奖励函数，可以使得两个智能体都有效学习到需要学习的策略：

r_{c a t c h} = r_{t h ro w} = r_{t o t a l} = ω_{0} r_{han d_d i s t} + ω_{1} r_{g o a l} + ω_{2} r_{f in g er_co n t a c t} - ω_{3} \overset{r}{ˉ}_{a r m_co n t a c t} - ω_{4} \overset{r}{ˉ}_{c a t c h er_a c t i o n} ω_{5} r_{o bj ec t_v e l oc i t y} + ω_{6} r_{t h ro w er_a c t i o n} α r_{c a t c h} + (1 - α) r_{t h ro w}

policy 网络架构 两个智能体都采用了[1024, 512, 256]大小的MLP加上ELU作为激活函数，遵从Actor-Critic架构，用PPO在HARL框架内训练。

感觉这个研究更像是应用先前研究的实现？大部分算法和优化方式都是先前研究已经提出的

知言的博客

探索

双臂抓取

实验动机

论文方法

关系图谱

目录