人形机器人行业专题报告：人形机器人：特斯拉擎天柱计划明年登陆火星，重视特斯拉产业链.pdf

1产业：智元发布灵犀X2,Figure成立量产工厂BotQ
1.1技术与产品：智元发布新品灵犀X2,优必选“天宫行者”向群体智能进化
1、3月11日，智元发布新品灵犀X2,机器人初步展现了运动智能、交互智能、作业智能的全智能能力。
智元机器人发布全球首个通用具身基座大模型“智元启元”,支持机器人通过人类视频学习实现小样本泛化，并推出新一代人形机器人“灵犀X2”,可完成骑自行车、踩滑板车及“针穿葡萄”等精细操作。
“智元启元”开创性地提出了Vision-Language-Latent-Action(ViLLA)架构，该架构由VLM(多模态大模型)+MoE(混合专家)组成。1)VLM借助海量互联网图文数据获得通用场景感知和语言理解能力；2)MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力；3)MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，持续进化，将具身智能推上了一个新台阶。
“灵犀X2”初步展现了运动智能、交互智能、作业智能的全智能能力。1)运动智能：视频中X2展现了使用滑板车、平衡车、自行车等运动能力，通过数据驱动的算法范式，智能体能从每秒数万次的环境交互和动作数据中，找到突破运动瓶颈的方法。2)交互智能：灵犀X2是第一台具备复杂交互能力的“灵动机器人”,使用了基于Diffusion的生成式动作引擎和基于VLM的“硅光动语”多模态交互大模型，通过边缘侧大脑、端到端的模型架构及大量工程优化，拥有毫秒级的交互反应，视听说功能完备；并集成了动作模态，拥有呼吸韵律、好奇心、肢体语言及其他拟人动作。未来有望进一步将Reaction-Agent作为情感计算引擎，赋予机器人更多情绪表达的能力。3)作业智能：X2本体支持柔性阻抗控制，可装配灵巧手等末端，完成穿针引线等精细作业。

本文来自知之小站

报告已上传百度网盘群，限时15元即可入群及获得1年期更新

（如无法加入或其他事宜可联系zzxz_88@163.com）

相关文章

红利投资的立体式布局：广发红利ETF投资价值分析.pdf

航天军工：“十五五”开局年关注两条主线.pdf

航空运输行业研究框架：需求、票价与油汇博弈下的行业再平衡.pdf