根据中国计算机协会,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。其实质是强调有物理身体的智能体通过与物理环境进行交互而获得智能的人工智能研究范式。具身智能可以划分为感知、推理和执行。在这三个过程中,大模型帮助机器人更好地感知环境、决策与规划运动路径并输出运动指令。
1)感知层面,具身智能可以帮助机器人主动映射(自主选择下一步更利于观察的视点进行环境探索)、主动定位(自主规划路径,尽量减轻机器人空间方向的模糊性)、物体识别(自主运动获得单个物体的多视图数据)、交互感知(更好地进行语音情感感知及多模态情感感知)。其中多模态大模型能更好地处理语言、2D图片、3D数据等多模态数据。
2)推理层面,具身智能能够帮助机器人进行任务规划(将抽象的非可执行人类指令转换为具体的可执行技能)、导航(基于计算机视觉理解环境信息,结合知识图谱和强化学习策略,推断目标对象可能位置并生成导航策略),在此过程中,用大模型将状态信息描述成PDDL(规划领域定义)语言再进行规划,可一定程度取代以往需要人工针对实际问题书写PDDL语言对任务进行建模。同时,通用执行大模型能够理解各种人类文本命令,适应不同场景配置、物体位置和形状,以及不同机器人的动作空间和操作模式,可以持续适应新技能,提供更好的泛化能力,提高学习速度。
3)执行层面,具身智能能帮助机器人进行技能学习(以技能描述、环境观察为输入,输出完成技能所需的轨迹),使用大模型压缩大量数据,实现一个比较好的拟合效果,在真实场景数据上有较之前更好的泛化性。
现实世界场景过于复杂,人工构建完整的技能库几乎不可能,因此泛化能力对于通用具身机器人十分关键,而大模型是提升机器人泛化能力的重要工具。对比扩散小模型目前位置泛化或无泛化水平,大模型已经有能力实现物品泛化,正朝着场景泛化和技能泛化发展。
目前关于大模型的研究主要集中在空间感知(导航等)、决策计划和运动规划。大模型在运动规划上仍难以较好胜任,主要是欠缺大量真实世界中机器人与人交互的高质量数据。根据北京大学助理教授董豪的演讲,以人脑6个区域功能为例,大模型目前已经具备“枕叶”、“颞叶”、“顶叶”、“额叶”对于视听触嗅温度和空间的感知能力,也具备一定决策计划能力,但是尚不具备运动规划能力,主要是由于供大模型训练的数据多是文本数据,缺乏诸如灵巧手操作等真实物理世界中的机器人数据。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
