这周整体来说还算正向,虽然在家的作息和学习时长挺区的,但是还是有些推进。主要就是根据大二寒假展望中的规划稳步前进中,目前就是正在

  1. 复现PI05的base权重,测试其在LIBERO10这个测试集上的表现
  2. 对PI05在开源数据集上进行训练
  3. 在思考如何微调,要解决什么样的task,这决定了最终在什么数据集上进行微调。目前比较模糊的就是这块,觉得可能没有特别清晰的规划,和Claude交流了它让我复现OpenVLA-OFT到PI05上,可能还要评估一下难度和作用。

这周主要的工作还是看了Lerobot的代码,对模型架构比较清晰了,见脚本分析Lerobot Policy抽象基类PI05建模SmolVLA应用。以及工程上的实现,主要见PI05 CKPT训练

其中工程上的问题主要集中在网络问题上,折腾了好久最后还是选择使用mihomo,见使用mihomo获得外网环境。现在网络非常畅通,主要是在解决依赖问题,这个确实挺烦的,特别是Claude又到限额了,不然我也不会来写周记了。

下周展望的话依然是按照大二寒假展望接着来搞:

  • 完成测试,尝试复现96%成功率
  • 完成训练,熟悉wandb以及依赖等工程问题
  • 思考好微调部分的task,最好找到有论文可以参考复现 不过不报太大希望,这周要过年了,能完成60-70%任务不错了。

支线,也够呛能完成: