具身智能行业共建开源数据集社区破解数据荒

DOnews
由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树科技等单位共建的“具身智能开源数据集社区”于2026年正式启动。这是国家级平台发起的首个具身智能开源数据集社区,旨在打破“数据孤岛、采集成本高、标注效率低、模型泛化弱”四重障碍。

具身机器人训练需数千亿级交互数据,而全行业现存数据仅数百万条,存在约10万倍缺口。单一企业独立采集难以填补该鸿沟,行业正转向协同共建模式。

由工信部指导、开放原子开源基金会发起,乐聚机器人牵头,联合蚂蚁灵波、上海交通大学、宇树科技等单位共建的“具身智能开源数据集社区”于2026年正式启动。这是国家级平台发起的首个具身智能开源数据集社区,旨在打破“数据孤岛、采集成本高、标注效率低、模型泛化弱”四重障碍。

智元AgiBot World、乐聚LET、银河通用DexonomySim、它石智航WIYH、枢途科技HORA、简智10Kh RealOmni、灵巧智能DexCanvas等数据集已宣布开源,覆盖多模态训练、人形机器人灵巧操作、全身运动等领域。它石智航发起“具身数据星火计划”,目标实现1亿小时数据共享;地平线、地瓜机器人与无问智科联合推出10000+小时具身智能开源数据集计划。

地方政府加速基础设施投入。据盖世汽车研究院统计,2025年地方采购数采机器人订单金额超10亿元;InteractAnalysis调研显示,截至2025年底,中国已有50个以上国家或省市区级人形机器人数采中心处于使用或规划建设中,分布于约19个省份,其中超半数已在2025年投入使用。上海张江机器人谷和北京石景山具身智能综合实训场已部署近百台数采机器人。

京东宣布一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,并同步采集机器人本体数据100万小时。其数据采集中心已构建“采集—标注—训练—验证”全流程流水线,拟动员内部超10万名员工及外部最多50万名各行业人员参与,覆盖家庭、办公、物流、零售、医疗等超百个细分场景。

行业共识认为,当前具身机器人本体运动控制趋于成熟,真实高质量数据成为训练通用“大脑”的最大瓶颈。盖世汽车研究院指出,缺乏力觉、触觉等高维动作数据,可能导致海量视频采集仅停留在低效堆砌层面。

数据技术路线呈现融合趋势。英伟达GTC 2026上,PhysicalIntelligence联合创始人Chelsea Finn强调需融合机器人真实数据、网络视频、人类视频等多元来源,以提升模型跨形态、跨环境、跨任务泛化能力。千寻智能已累计获取超20万小时多类型真实交互数据,预计2026年总量将突破100万小时;穹彻智能持续采用遥操作采集方式。

Agility CTO Pras Velagapudi提出数据质量金字塔模型:塔尖为遥操作采集数据(量少质高),向下依次为UMI、第一人称视角数据、通用视频数据。行业普遍采纳“预训练打底、真机点睛”策略——以低成本数据覆盖广度,以高精度数据保障深度。宇树科技创始人王兴兴指出,应优先利用视频、互联网及仿真数据完成基础模型预训练,再提升真实机器人数据利用效率,从而降低对大规模真机采集的依赖。

有业内人士指出,地方政府支持虽加速遥操作数采中心建设,但也可能延缓UMI等更灵活、低成本采集方案的推广节奏。政策导向使部分数采厂更倾向与本体厂商及地方政府合作,形成路径依赖。

当前,政策、产业与资本共同推动具身智能数据体系建设。多技术路线并行发展、相互借鉴,数据困境正从“能否解决”转向“何时解决”。类比自动驾驶发展历程,产业链协同、真实数据积累与算法迭代有望推动具身智能逐步摆脱“数据荒”制约。

请扫码关注数字化经济观察网
责编:左右
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200