实探北京人形机器人数据基地:月产数据1.5万小时 已建立标准化数采流程
3月19日,记者实地探访北京人形机器人创新中心具身智能机器人数据采集与训练基地(以下简称“数据基地”)。
数据基地一期2025年11月正式对外运营,建筑面积近5000平方米,覆盖家居、商超、办公、工业、医药、康养等领域30多个典型场景,并建有专业光学动作捕捉场地。数据基地拥有各类构型的机器人120多台,配备头环式、夹爪式采集设备,动捕服、动捕手套及遥操驾舱等专业装备,具备真机遥操作、开放环境采集、动作捕捉采集等全栈式数据采集能力。
数据采集员在不同场景进行动作采集,例如家庭厨房里的碗碟摆放、擦洗,卫生间的电动牙刷清洁,商超货架的商品扫码与摆放,工业产线的物料分拣,康养场景的辅助护理等。
北京人形机器人创新中心产品负责人、具身智能机器人数据与训练基地负责人蒋未来谈到,具身智能数据采集主要面临三大难点:一是场景碎片化,真实环境千差万别,每个变量都在考验算法的泛化能力;二是机器人“方言”不通,不同构型的机器人本体存在显著的“方言”差异,传感器布局、关节自由度、控制接口各不相同,导致不同构型的数据难以迁移;三是数据质量参差不齐,数据采集涉及动作捕捉、多模态同步、人工标注等环节,任何环节偏差都可能产出“低质数据”,低质数据会浪费资源甚至误导模型。
蒋未来介绍,数据基地目前月产数据1.5万小时,已建立标准化项目管理体系,制定了数据采集、标注、质检等系列规范,实现全流程质量可控。目前数据基地已为多家头部企业及科研机构交付数万小时高质量数据,整体数据合格率稳定在95%以上。
据悉,北京人形机器人创新中心已牵头制定国内首个具身智能数据集行业标准《人工智能具身智能数据采集规范》,规范数据采集格式以促进跨机构数据共享与模型训练效率提升。此外,该中心已发布并开源的Robomind具身智能数据集,下载次数已超200万次。