参考:
- behavior-1k
Dataset - BEHAVIOR是仿真数据。使用Lerobot数据格式包含语言标注,数据,元数据,视频
data(.parquet),videos(.mp4*9),mata,annotation(.json)。大小大约1.5T,还有700G的behavior-1k/2025-challenge-rawdata at main(.hdf5) - agibot-world/AgiBotWorldChallenge-2025 · Datasets at Hugging Face
3T的同时包含真机,仿真,onsite和世界模型的数据,格式为
video(.mp4),params(.json)和state(.h5) - 越疆和A1貌似是私有数据,网上只搜得到硬件
- InternData有仿真数据和真实数据(上传中)。大小是1.89T的数据。结构为
data(.parquet),videos(.mp4),mata,annotation(.json)。任务分为基础任务,长程任务,抓取-放置任务和articulation task。 - https://huggingface.co/RoboCOIN/datasets 大小为2.5T,结构为
data(.parquet),videos(.mp4*4),mata,annotation(.json) - robotics-diffusion-transformer/rdt-ft-data · Datasets at Hugging Face,700G的.h5文件
- lerobot的huggingface中还有一些如aloha的数据集,但是较小,大概是数十G的量级