这周整体来说还算正向,虽然在家的作息和学习时长挺区的,但是还是有些推进。主要就是根据大二寒假展望中的规划稳步前进中,目前就是正在
- 复现PI05的base权重,测试其在LIBERO10这个测试集上的表现
- 对PI05在开源数据集上进行训练
- 在思考如何微调,要解决什么样的task,这决定了最终在什么数据集上进行微调。目前比较模糊的就是这块,觉得可能没有特别清晰的规划,和Claude交流了它让我复现OpenVLA-OFT到PI05上,可能还要评估一下难度和作用。
这周主要的工作还是看了Lerobot的代码,对模型架构比较清晰了,见脚本分析、Lerobot Policy抽象基类、PI05建模、SmolVLA应用。以及工程上的实现,主要见PI05 CKPT训练。
其中工程上的问题主要集中在网络问题上,折腾了好久最后还是选择使用mihomo,见使用mihomo获得外网环境。现在网络非常畅通,主要是在解决依赖问题,这个确实挺烦的,特别是Claude又到限额了,不然我也不会来写周记了。
下周展望的话依然是按照大二寒假展望接着来搞:
- 完成测试,尝试复现96%成功率
- 完成训练,熟悉wandb以及依赖等工程问题
- 思考好微调部分的task,最好找到有论文可以参考复现 不过不报太大希望,这周要过年了,能完成60-70%任务不错了。
支线,也够呛能完成:
- 推进Diffusion & Flow model的进展,学习模型知识。