赛迪前瞻2026年第11期(总939期):我国具身智能数据集工程化落地亟待破解四大瓶颈-水印版.pdf

我国具身智能数据集工程化落地亟待破解四大瓶颈
具身智能包括本体、数据集、模型、场景四大组成要素,其中,数据集关系到具身智能的智能涌现和能力泛化。当前,在数据集领域,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,形成了“真机遥操+灵巧手采集+仿真数据”三层数据供给体系,支撑视觉-语言-动作(VLA)模型与世界模型并进式发展。但具身智能数据集供给仍呈现点状分散格局,受限于标注工具不足、采集成本高昂、多模态技术滞后与标准体系缺失等瓶颈,掣肘了具身智能从技术验证向规模化商业应用的进程。亟需培育高质量具身智能数据训练场,打造数据集标注平台,建设数据集开源社区,研制数据集标准规范,开展规模化场景应用示范,探索具身智能数据集产业高质量发展的“中国路径”。
一、我国具身智能数据集的建设现状
从建设主体看,国家级数据训练场、行业级开源社区与企业级数据开发平台协同发力,具身智能数据集开发生态纵深性发展。一是国家级训练场构建“2+N”数据生产体系。国家层面,已在北京和上海建成2个国家级具身智能训练场。其中,北京国家地方共建具身智能机器人创新中心已建成近万平米的中试验证工厂,年产能达数千台套,配备近百套关键测试仪器,支持整机、一体化关节、机械臂等全链条测试验证。上海国家地方共建人形机器人创新中心训练场已部署102台异构人形机器人,具备每日生成5万条数据的能力。地方层面,河南、江苏、北京、深圳等省市正积极推进人形机器人创新中心分训练场建设。其中河南分训练场聚焦12大传统产业,部署近百台机器人,覆盖20多个真实场景。二是行业级开源社区推动关键资源共建共享。地方、企业及科研机构主动开放资源,以共建方式降低行业创新门槛。如傅利叶智能开源了包含3万条真机数据的ActionNet数据集及配套工具链,地瓜机器人等也积极打造开发者社区。北京国家地方共建具身智能机器人创新中心上线了开源社区,提供具身天工机器人本体、慧思开物SDK、RoboMIND数据集及训练工具链等资源。三是机器人本体企业和技术服务平台企业推动企业级数据研发和服务。机器人本体企业基于自有硬件进行真机数据的采集积累,如智元机器人AgiBot World真机数据集、宇树科技G1机器人操作数据集、帕西尼OmniSharing DB全模态具身智能数据集。技术服务平台企业则提供数据采集平台、仿真工具、数据标注服务等数据服务,助力企业数据集开发。如群核科技提供虚拟数字道场平台SpatialVerse,通过生成可交互的三维合成数据,支持机器人进行避障、抓取及紧急制动等任务的仿真训练;智源研究院则打造高保真仿真框架AgiBot Digital World,为机器人设计提供仿真数据生成解决方案。
从技术路径看,形成了数据供给“真机遥操+灵巧手采集+仿真数据”三层体系,规模化采集能力初步建成。一是真机遥操。智元机器人、傅利叶智能等企业,通过覆盖单臂、多臂、人形、四足等多形态机器人,可在家居、餐饮、工业、办公等200多个真实场景中执行复杂操作,积累大量真实交互数据。二是灵巧手采集,通过触觉传感器精准记录人手精细动作,为精密装配、柔性物体操控等任务提供关键数据。灵巧智能DexCanvas数据集,汇聚了22类人手操作模式、超1000小时真人多模态演示数据,驱动五指灵巧操作模型。三是仿真数据。银河通用、光轮智能、深信科创、云道智造等企业,借助物理引擎和图形学构建虚拟环境,可低成本生成大规模数据。
从建设成效看,具身智能数据集支撑VLA与世界模型发展,涌现一批典型模型。一是在VLA模型方向,大规模、多模态数据集为其提供了训练基础,使机器人能够融合视觉感知、语言理解与动作控制,高效执行复杂任务。比如银河通用机器人依托具身大模型GraspVLA,通过十亿帧数据训练,掌握机器人泛化闭环抓取能力。星动纪元发布VLA模型ERA-42驱动的双足机器人,学习人类操作视频和真机数据,可实现4m/s疾速奔跑、360°旋转跳及工业级精细作业。二是在世界模型方向,机器人通过海量视频数据,学习环境中物体与事件的演变规律,提升其对未来状态的预测与因果推理能力。如智元机器人的Genie Envisioner世界模型平台,基于3000小时的真机操控视频数据,赋能机器人实现“制作三明治”“倒茶”“擦拭桌面”等任务。宇树科技基于5个涵盖机械臂和人形机器人的任务数据集,搭建UnifoLM-WMA-0世界模型架构。三是技术架构正从分层架构向端到端演进,VLA与世界模型或将融合。当前具身智能仍以分层架构为主,随着仿真与真实数据的进一步融合,“世界模型为大脑、VLA为手眼”的融合架构将成为新趋势。
二、具身智能数据集工程化落地存在四大瓶颈
当前,我国具身智能数据集建设已形成多主体协同、多层次供给的格局,但仍呈点状分散状态。要实现具身智能领域的技术迭代与规模化商业落地,必须加快推进数据集工程化落地——即构建覆盖数据采集、标注、应用、评估全流程的标准化和产品化,实现数据集的高效生产与可靠复用,为具身智能模型训练与场景适配提供系统化支撑。目前,该进程仍面临四大瓶颈制约。
(一)数据标注工具制约高质量数据集构建
一是具身智能标注工具仍显匮乏。VLA模型要求对视觉场景、语言指令及动作轨迹进行时空关联标注,世界模型更需要标注视频序列中的物理属性、物体状态变化及潜在的因果联系。然而,现有工具多侧重于静态图像或简单视频标注,难以高效支持VLA模型和世界模型对长序列、3D空间和物理动态标注的需求,数据标注精度不足。二是缺乏数据标注全生命周期平台。标注规范、工具接口和数据格式各异,使得不同企业的标注数据复用性与集成性较差,制约了数据生态的协同效率。

本文来自知之小站

 

报告已上传百度网盘群,限时15元即可入群及获得1年期更新

(如无法加入或其他事宜可联系zzxz_88@163.com)