2026第11周,3.9-3.15。 上周预订的任务:
- 在保证质量的前提下尽快完成 RL 部分的学习
- 推进大创中微调 PI05 的工作
- 研究实习方面的可能性 支线:
- 研究PI05的源码,现在已经具备理论知识了,可以尝试进入代码层面的理解
- 进行一定程度的前后端知识学习
整体来说,还是计划赶不上变化,大创上周突然又不需要工作了,等下周师兄分配工作。至于实习,还是不是很敢主动去问,如果想要暑期实习的话,应该尽快了,但是还是觉得现在能力太弱了😱。
上周的主要工作是推进了 RL 部分:Model free 基础方法,准备开始深度 RL和大模型领域的 PPO 等 RL 算法。以及开始PI 系列 Policy重新开始解读,感觉缺少了对 mask 方面的分析,开始进入Lerobot Policy 抽象层分析和PI05代码分析的分析。
总结一下,感觉上周还是有点疲软,这周可以加快 RL 部分和 PI 系列代码领域的阅读,同时调整一下技术文的结构的文风。