2613-第十三周

2026年第13周，3.23至3.30。上周的任务为：

减少理论的侧重
- 完成 PPO 算法的学习
增强实践方面的侧重
- 浏览 PI 系列新论文和代码
- 查看组织文件看有啥能干的，看能不能领点活干

PPO 部分没看，但是基本上把 GAE 的内容给理解了，但是没有记笔记，可以考虑找个时间把笔记完善一下。由于从 GAE 到 PPO 这部分都是直接看原始论文的，比较少好的参考资料，所以进度可能慢一些。

然后组内目前是领到了一些微调的工作，也没办法，只能接着干看看有没有可行的方向能走走看的。PI 系列也是在慢慢啃，目前也是进展较缓，也想不到要以什么方式来呈现代码库。这周可以接着在这方面看看。

下周的任务是，由于下周有清明假所以少了点：

深入解析 Lerobot 中 PI 系列代码
推进微调的工作。

另外是这周看完了谢赛宁的七小时访谈：

在两个方向最打动我：一是谢的成长环境对他的塑造，那种比较去功利化的，强调阅读，强调体验的环境，这也是马拉松访谈的好处吧，一般两小时的访谈不会从大学聊到 PhD 再到实习和工作阶段的经历。二是其和人的交往对谢的塑造作用，这种顶尖科学家信手拈来的感觉的确很让人羡慕。而这些顶尖的人才对相互的塑造影响更是作用巨大，包括谢提到的何恺明的专注，看破包装直指核心的能力，以及杨立昆的强大气场，坚守 scientist’s integrity 等，不一而足，是`work with the best, learn from the best, be the best`的生动注脚。

他在访谈中也大量强调到世界模型、表征学习的重要性，最后半小时也是粗略地涉及到了具身的路线。他对表征学习的强调给我的科研世界观进行了重构和补充：我之前觉得具身智能之所以迷人，是因为它是真正的接地（Grounded）的模型，如果能实现真正的通用智能，Robotics 是必经之路，它能实现像现在 Claude Code 那样的颠覆性的创造，因为 CC 也是一种接地的模型。VLA 在现在已经显现出诸多难点，尤其是使用语言作为一个世界的代理，而世界模型则是想直接解决这个问题，谢在访谈中说到希望能通过世界模型来不涉足 Robotics 而解决 Robotics 的问题，如果这个技术路线是可行的话，希望我能赶上让模型真正理解世界，将 Robotics 落地的这个浪潮。

现在所写的内容可能还只算为一个草稿，我也有很多感悟、疑惑和好奇，关于世界模型、AGI、Transformer、The bitter lesson等，或许等我更有能力的时候可以写一版出来，希望吧。

知言的博客

探索

2613-第十三周

关系图谱

反向链接