2612-第十二周

2026年第十二周，3.16-3.22 。上周好像没有布置任务，不过任务也大致不变，即主力还是放在RL上面，这周主要是完成了Model free 基础方法和深度 RL这两个文件，基本上把西湖大学的 RL 教程给看完了，今天下午基本上可以把 actor-critic 给收尾了，但是在笔记上花了12小时，考虑到这是基础中的基础到还是能接受，但是之后应该压缩笔记的时间，或者加强和大模型的协作。下周或许可以暂时少看些 RL，更多转向实践方向的尝试，看看 PPO 或许就够了。

实践方面应该先尝试以项目开始为主线，看看在尝试做项目任务中能不能蹦出一些 idea 然后尝试看论文去验证。首先应该围绕 PI 系列的那几篇新论文，以及代码，以及 notion 文档看看有没有可以入手的角度，不过麻烦的是师兄还没有派活，可能要我自己去尝试争取一些活干。

比较开心的是这周在复习资料自动化方面有了些进展，发现了mineru这个强大的 OCR 工具，可以基本无损地把课件转为 md 文件，这样喂给 agent 就可以比较好地得到 Latex 或者 md 复习资料了。可以再推进一下，把语音转文字的任务也搞定，这样可以直接自动化地获取比如播客的总结。

总体来说这周任务是这样的：

减少理论的侧重
- 完成 PPO 算法的学习
增强实践方面的侧重
- 浏览 PI 系列新论文和代码
- 查看组织文件看有啥能干的，看能不能领点活干

知言的博客

探索

2612-第十二周

关系图谱

反向链接