第10周,3.2到3.8日。

上周的目标:

整体来说算是完成了,Diffusion & Flow model有了比较深的的理解(算是吧),也是将其上传的了知乎也算是迈出第一步了,知乎上传文章比我想得要简单,以后可以尝试多在知乎上上传文章。

然后把Bellman 公式部分是完成了,以及基本把 index 的学习路线给理清楚了,希望1-2周能结束强化学习部分的理论学习。尽管如此,我认为这周的效率和学习时长还是有点欠佳,可能是开学第一周的原因吧,出去玩的时间有点多了,然后完成 Diffusion 和 Flow 模型的笔记后就开始有点掉速了。本周可以尝试调整一下。

本周主要是接着研究强化学习部分的理论知识,第二次看整体来说还是清晰很多,如果能一周看到现在的 GRPO 等现代 RL 是再好不过,不过还是希望能保证质量。以及同时这周需要开始钻研pi0.5移植到宇树g1可行性研究,感觉压力还是蛮大的,因为第一次搞这种不知道效果的实验。以及希望能多做一些关于实习的研究,看能不能这个暑假尝试进行实习。

本周目标:

  • 在保证质量的前提下尽快完成 RL 部分的学习
  • 推进大创中微调 PI05 的工作
  • 研究实习方面的可能性

支线:

  • 研究PI05的源码,现在已经具备理论知识了,可以尝试进入代码层面的理解
  • 进行一定程度的前后端知识学习

不过这周主线任务还是蛮繁重的,不奢望能推进支线。