2026年第十二周,3.16-3.22 。上周好像没有布置任务,不过任务也大致不变,即主力还是放在RL上面,这周主要是完成了Model free 基础方法和深度 RL这两个文件,基本上把西湖大学的 RL 教程给看完了,今天下午基本上可以把 actor-critic 给收尾了,但是在笔记上花了12小时,考虑到这是基础中的基础到还是能接受,但是之后应该压缩笔记的时间,或者加强和大模型的协作。下周或许可以暂时少看些 RL,更多转向实践方向的尝试,看看 PPO 或许就够了。
实践方面应该先尝试以项目开始为主线,看看在尝试做项目任务中能不能蹦出一些 idea 然后尝试看论文去验证。首先应该围绕 PI 系列的那几篇新论文,以及代码,以及 notion 文档看看有没有可以入手的角度,不过麻烦的是师兄还没有派活,可能要我自己去尝试争取一些活干。
比较开心的是这周在复习资料自动化方面有了些进展,发现了mineru这个强大的 OCR 工具,可以基本无损地把课件转为 md 文件,这样喂给 agent 就可以比较好地得到 Latex 或者 md 复习资料了。可以再推进一下,把语音转文字的任务也搞定,这样可以直接自动化地获取比如播客的总结。
总体来说这周任务是这样的:
- 减少理论的侧重
- 完成 PPO 算法的学习
- 增强实践方面的侧重
- 浏览 PI 系列新论文和代码
- 查看组织文件看有啥能干的,看能不能领点活干