2026第14周,3.30-4.5。上周的任务是:
- 深入解析 Lerobot 中 PI 系列代码
- 推进微调的工作。
微调基本是微调完了,但是因为分给我的是 act 和 dp 这两个 task-specific 的模型,而我是用全部任务混合训练的,感觉可能还需要再返工,不过这个也挺简单的,所以还好。
而周中又分到了真机部署的项目和复现 pi*0.6 的 RECAP 的任务,所以源码没怎么看,只是推进了一点GAE的笔记,剩余主要都是去研究真机了。其中 RECAP 部分的研究到一半发现最好由机械臂厂商来实现这个功能,有可能有接口没开放,就暂时没看了。而 G1 真机部分真的是折磨死人了,先后研究出了ROS2 G1 连接配置指南和真机部署 Psi0 踩坑记录这两篇,不得不说本身 Psi0 的文档和社区支持就差,还需要同时配置 Python 和 C++ 层面的依赖,实在是太复杂了,对于目前的我来说可能太难了,所以主要还是依赖 agent。
下周接着延续大创中的任务吧:
- 推进真机部署
- 深入解析 Lerobot 中 PI 系列代码(了解代码层发生了什么,不要只关注agent提供的信息)
- 可以尝试推进一些 RL 的工作
其中 RL 部分的工作感觉主要还是查找有什么合适的工作,原本的 RECAP 的感觉挺合适,可能找找有没有真机/仿真方向的RL工作可以学习一下吧。
总结一下这个月吧:2610-第十周、2611-第十一周、2612-第十二周、2613-第十三周、2614-第十四周。好的方向是越来越往深层和代码层探索,而不是只是掌握宏观层面的理论。从Diffusion & Flow model到PI05代码分析和PI05 CKPT训练以及Model free 基础方法等 RL 理论到 PI*06的实践(期望),都算是改变了之前没有进行有效的实践的问题。
当然也有一些问题:主要是一些任务延迟过久,像深入解析 Lerobot 中 PI 系列代码这种任务堆积了太久,计划完成率偏低,可以重新思考一下每周任务的作用和形式。以及比较主要的,对复杂工程任务的应对仍依赖 Agent,这个也要靠上述深入代码层的实践来解决。当然也缺少paper阅读导致缺乏一些idea的产生,不过现在还不着急,可以等到大三再在这个方向发力。