2026第11周,3.9-3.15。 上周预订的任务:

  • 在保证质量的前提下尽快完成 RL 部分的学习
  • 推进大创中微调 PI05 的工作
  • 研究实习方面的可能性 支线:
  • 研究PI05的源码,现在已经具备理论知识了,可以尝试进入代码层面的理解
  • 进行一定程度的前后端知识学习

整体来说,还是计划赶不上变化,大创上周突然又不需要工作了,等下周师兄分配工作。至于实习,还是不是很敢主动去问,如果想要暑期实习的话,应该尽快了,但是还是觉得现在能力太弱了😱。

上周的主要工作是推进了 RL 部分:Model free 基础方法,准备开始深度 RL和大模型领域的 PPO 等 RL 算法。以及开始PI 系列 Policy重新开始解读,感觉缺少了对 mask 方面的分析,开始进入Lerobot Policy 抽象层分析PI05代码分析的分析。

总结一下,感觉上周还是有点疲软,这周可以加快 RL 部分和 PI 系列代码领域的阅读,同时调整一下技术文的结构的文风。