2026年第13周,3.23至3.30。上周的任务为:
- 减少理论的侧重
- 完成 PPO 算法的学习
- 增强实践方面的侧重
- 浏览 PI 系列新论文和代码
- 查看组织文件看有啥能干的,看能不能领点活干
PPO 部分没看,但是基本上把 GAE 的内容给理解了,但是没有记笔记,可以考虑找个时间把笔记完善一下。由于从 GAE 到 PPO 这部分都是直接看原始论文的,比较少好的参考资料,所以进度可能慢一些。
然后组内目前是领到了一些微调的工作,也没办法,只能接着干看看有没有可行的方向能走走看的。PI 系列也是在慢慢啃,目前也是进展较缓,也想不到要以什么方式来呈现代码库。这周可以接着在这方面看看。
下周的任务是,由于下周有清明假所以少了点:
- 深入解析 Lerobot 中 PI 系列代码
- 推进微调的工作。
另外是这周看完了谢赛宁的七小时访谈:
在两个方向最打动我:一是谢的成长环境对他的塑造,那种比较去功利化的,强调阅读,强调体验的环境,这也是马拉松访谈的好处吧,一般两小时的访谈不会从大学聊到 PhD 再到实习和工作阶段的经历。二是其和人的交往对谢的塑造作用,这种顶尖科学家信手拈来的感觉的确很让人羡慕。而这些顶尖的人才对相互的塑造影响更是作用巨大,包括谢提到的何恺明的专注,看破包装直指核心的能力,以及杨立昆的强大气场,坚守 scientist’s integrity 等,不一而足,是`work with the best, learn from the best, be the best`的生动注脚。他在访谈中也大量强调到世界模型、表征学习的重要性,最后半小时也是粗略地涉及到了具身的路线。他对表征学习的强调给我的科研世界观进行了重构和补充:我之前觉得具身智能之所以迷人,是因为它是真正的接地(Grounded)的模型,如果能实现真正的通用智能,Robotics 是必经之路,它能实现像现在 Claude Code 那样的颠覆性的创造,因为 CC 也是一种接地的模型。VLA 在现在已经显现出诸多难点,尤其是使用语言作为一个世界的代理,而世界模型则是想直接解决这个问题,谢在访谈中说到希望能通过世界模型来不涉足 Robotics 而解决 Robotics 的问题,如果这个技术路线是可行的话,希望我能赶上让模型真正理解世界,将 Robotics 落地的这个浪潮。
现在所写的内容可能还只算为一个草稿,我也有很多感悟、疑惑和好奇,关于世界模型、AGI、Transformer、The bitter lesson等,或许等我更有能力的时候可以写一版出来,希望吧。