摘要 大模型驱动的具身智能是涵盖人工智能、机器人学和认知科学的交叉领域,重点研究如何将大模型的感知、推理和逻辑思维能力与具身智能相结合,提升现有模仿学习、强化学习、模型预测控制等具身智能框架的数据效率和泛化能力.近年来,随着大模型能力的不断提升,以及具身智能中示教数据、仿真平台、任务集合的不断完善,大模型和具身智能的结合将成为人工智能的下一个浪潮,有望成为人工智能迈向实体机器人的重要突破口.本文围绕大模型驱动的具身智能这一研究领域,从3个方面进行了系统的调研、分析和展望.首先,回顾了大模型和具身智能的相关技术背景,以及具身智能现有的学习框架.其次,按照大模型赋能具身智能的方式,将现有研究分为大模型驱动的环境感知、大模型驱动的任务规划、大模型驱动的基础策略、大模型驱动的奖励函数、大模型驱动的数据生成等5类范式.最后,总结了大模型驱动的具身智能中存在的挑战,对可行的技术路线进行展望,为相关研究人员提供参考,进一步推动国家人工智能发展战略.
关键词 具身智能,大模型,环境感知,任务规划,基础策略
1引言
具身智能(embodied AI)是人工智能、机器人学、认知科学的交叉领域,主要研究如何使机器人具备类似人类的感知、规划、决策和行为能力[1.具身智能可以追溯到20世纪50年代,艾伦·图灵首次提出具身智能的概念,探索如何使机器感知和理解世界,并作出相应的决策和行动[2,3.随后在80年代对符号主义的反思中,以罗德尼·布鲁克斯为代表的研究者逐渐认识到,智能不应该只在对数据的被动学习中得到,而应该通过与环境进行主动交互中获取,应当重点研究如何让机器人主动适应环境[4.近年来,在高性能算力平台和大规模标注数据的支持下,深度学习方法通过挖掘数据模式,在图像识别、语言处理、围棋、蛋白质结构预测等任务中取得了一系列突破性的进展.然而,这些非具身智能体缺乏与环境交互学习的经验,无法直接驱动机器人实体完成特定任务.相比较而言,具身智能强调感知-运动回路(perception-action loop),使用物理实体来感知和建模环境,根据任务目标和实体能力进行规划和决策,最后使用实体的运动能力来完成任务.具身实体对任务的完成结果将作为反馈进一步优化智能体的策略,从而使智能体的行为能够适应变化的环境,这一过程与人类的学习和认知过程有很高的相似性.具身智能在研究中更多体现智能的理念,在具身实体中融合了视觉、语言、决策等多方面的技术来提升智能体的通用型和泛化性[5.
近年来,以ChatGPT为带代表的大语言模型(large language model,LLM)⁶]技术取得了突破性的进展,通过在大规模网络对话数据中进行学习,ChatGPT能够实现包括自动问答、文本分类、自动文摘、机器翻译、聊天对话等各种自然语言理解和自然语言生成任务,同时具备在少样本和零样本场景下达到了传统监督学习方法的性能,并具有较强的泛化能力[7.通过先进的思维链(chain-of-thought,CoT)[8等提示技术,大语言模型的逻辑推理能力获得了大幅提升,从而有望解决复杂具身智能场景中的任务分解和推理问题.视觉基础模型(visual foundation model,VFM)阿通过自监督的学习目标可以获得强大的视觉编码器,能够解决如图像分类、语义分割、场景理解等视觉感知任务.在具身智能任务中,强大的视觉编码器能够对视觉传感器获得的周围环境信息进行分析和理解,从而帮助智能体进行决策.在此基础上,视觉-语言模型(visual-language model,VLM)[10]通过引入预训练视觉编码器和视觉-语言模态融合模块,使得大语言模型能够获取视觉输入,同时根据语言提示进行视觉问答.在具身智能中,引入视觉-语言模型能够使智能体根据任务语言指令和环境的视觉观测进行推理和决策,从而提升智能体对环境的感知和理解能力.多模态大模型(large multimodal model)[11,12通过引入视频、音频、肢体语言、面部表情和生理信号等更多模态,可以分析更丰富的传感器输入并进行信息融合,同时结合具身智能体中特有的机器人状态、关节动作等模态信息,帮助解决更复杂的具身智能任务.大模型通过充分利用大规模数据集中学习到的知识,结合特定的具身智能场景和任务描述,为智能体提供环境感知和任务规划的能力.图1列举了近年来大模型驱动的具身智能领域的代表性成果.
在赋能感知和规划之外,大模型能够和具身智能的经典框架结合,提升策略的泛化能力和对环境的适应能力.具身智能的传统框架主要包括模仿学习(imitation learning,L)[13]、强化学习(reinforcementlearning,RL)[14、模型预测控制(model-predictive control,MPC)[15]等.具体地,模仿学习遵循监督学习的范式,通过直接从专家轨迹数据中学习策略,但往往受限于专家数据的规模和协变量偏移(covariate shift)问题而容易产生较高的泛化误差;强化学习通过在环境交互中试错来获得样本,通过最大化奖励来获得策略和值函数,但在机器人任务中受限于复杂的奖励设计和长时间的环境交互;模型预测控制通过使用环境模型产生对未来策略执行情况的预测,结合策略搜索方法获得当前最优的动作,但依赖于对环境的先验知识和环境模型的泛化能力.近年来,许多研究尝试了大模型技术与上述框架的结合,从而克服现有框架面临的问题[16.具体地,在模仿学习中,大语言模型和视觉语言模型能够作为基础策略使智能体利用大模型对环境的理解和泛化能力,同时,大模型对任务的分解能够产生的任务短期目标来降低模仿学习的难度[17;在强化学习中,大模型能够根据对任务和场景的理解产生合适奖励函数来引导强化学习中价值函数和策略函数的学习,同时强化学习能够作为大模型的基础策略和人类偏好对齐的工具,引导策略的输出符合人类偏好[18;在模型预测控制的框架下,大模型能够利用从大量训练数据中获取的对物理世界的理解构建环境模型,进而使智能体能够使用环境模型进行交互和策略搜索[19].此外,视觉生成模型和语言生成模型可以根据任务需求生成机器人交互环境供强化学习算法进行交互,或生成交互数据来扩充特定任务下的专家样本,用于缓解真实机器人任务中普遍存在的数据稀缺问题[201
本文围绕大模型驱动的具身智能,首先介绍相关技术背景,包括具身智能的基本概念,大模型相关技术,以及强化学习、模仿学习、模型预测控制等策略学习框架.随后,从学习范式的角度,将大模型驱动的具身智能算法进行分类,主要包括大模型驱动的环境感知、任务规划、基础策略、奖励函数和数据生成等5个方面.其中,(1)大模型驱动的环境感知从冗余的多传感器观测中进行特征抽取和信息融合,能够提取对策略学习有用的信息,从而使具身智能学习框架普遍受益;(2)大模型对宏观任务的规划使用大模型的逻辑推理能力对复杂任务进行分解,允许使用灵活的底层学习框架对分解后的任务进行策略学习;(3)大模型驱动的基础策略可以与模仿学习框架进行结合并作为模型学习的初始策略,在使用少量机器人的任务数据微调后,大模型能够将通用的环境理解能力和特定的具身应用场景结合,减少策略训练对机器人数据的需求量并提升策略的泛化能力;(4)大模型驱动的奖励函数可与强化学习算法进行结合,减少机器人场景中人为进行奖励函数设计的难度,降低奖励函数设计对物理先验知识的依赖,克服强化学习算法在机器人任务中面临的稀疏奖励问题;(5)大模型驱动的数据生成根据学习框架的不同分为两类:一方面,大模型可作为环境模型生成智能体的未来轨迹预测,与模型预测控制算法和基于模型的强化学习算法相结合进行策略搜索;另一方面,大模型可以生成机器人数据用于具身策略训练,作用于无模型强化学习算法和模仿学习算法,从而缓解机器人任务的数据缺乏问题.
在对研究现状进行总结和分析的基础上,本文提出了大模型驱动的具身智能研究中存在的5大挑战,主要包括:(1)大模型在特定具身场景中的适应问题.从宏观上看,大模型是广泛意义上的“通才”,而在特定具身任务中往往需要能解决该任务的“专才”智能体,如何使用大模型中涌现的通用知识在机器人任务中达到精确的物体操作和稳定的运动控制,仍然是一项长期的挑战.(2)大模型策略和人类偏好的对齐问题.具身任务的策略偏好和大模型中使用人类偏好往往有所不同,例如,面对具身智能规划问题,大语言模型往往趋向于给出多样的、全面的回答,而智能体执行任务需要准确的、可安全执行的指令分解.如何将大模型能力和人类偏好在具身智能任务中进行对齐是一项重要的研究问题.
(3)具身策略的跨域泛化问题.大模型能够对不同的任务指令进行解析,对多样化的视觉场景进行识别.然而,具身智能同时面临着跨域泛化的难题,如环境参数改变、机器人动力学改变,跨形态学实体的泛化等机器人特有的问题,目前大模型尚不具备直接解决问题的能力.(4)大模型驱动多智能体协作的能力.在解决复杂任务中往往需要多个智能体进行协作,其中涉及到的任务分配、合作博弈、沟通反馈等传统多智能体合作问题在大模型背景下缺乏相关研究,如何使大模型驱动多智能体进行高效协作在未来是重要的研究问题.(5)大模型具身策略的决策实时性问题.机器人策略在执行过程中环境观测是快速变化的,具身策略需要保持较高的决策频率.而大模型在进行单次推理时需要较高的计算代价,如何解决大模型在规划和决策时的实时性是大模型在实体机器人应用的重要问题.本文将对以上挑战进行分析和总结,对可能的研究路线进行展望,为大模型在具身智能中的广泛应用提供系统性参考.本文的主要框架如图2所示.
2背景
本节将从具身知识基本概念、具身智能学习框架、大模型相关技术等几个方面介绍本文的背景知识.其中,具身智能基本概念主要包括具身实体定义、传感器、任务定义等;具身智能学习框架主要包括模仿学习、强化学习、模型预测控制等;大模型技术主要包括大语言模型、视觉-语言大模型、多模态大模型、扩散生成模型等.
2.1具身系统基本概念
具身智能系统的基本结构如图3所示,主要包括实体、任务、环境三个部分.其中,具身实体是系统的核心,主要包括机器人、传感器、执行器等部分.在特定任务中,机器人通过传感器获取对环境的感知,随后由具身智能算法产生当前合适的动作,将动作传输给执行器,执行器产生底层机器人指令与环境进行交互,获得环境的反馈和更新后的场景感知信息并循环进行上述过程.机器人的类型往往决定了具体可以使用的传感器和执行器,常用的机器人类型包括机械臂、四足机器人、移动机器人、灵巧手、人形机器人等,如图4所示.
机械臂是最为常见的具身实体类型,用来执行物体操作和抓取等任务.人工智能算法驱动的机械臂研究拥有较长的历史,常用的机械臂类型包括Franka,xArm,Sawyer,Kuka,UR5等.针对常用的机械臂类型,研究人员开发了许多高效率的仿真平台,例如MuJoCo[2],Deepmind Control Suite[221,Franka Kitchen[23,RoboSuite[24,ManiSkill[25等.仿真环境提供了物理仿真和环境渲染的功能,前者通过机械臂自身的物理结构进行动力学转移的数学模型构建,后者通过图像渲染等工具获得机械臂及其周围环境的2D/3D观测用于机器学习算法的训练.通过仿真平台,智能体能够快速的与环境交互并获得大量的交互样本,同时可以在标准任务集合上快速验证算法的有效性.同时,现有的高性能仿真环境如ManiSkill2[26]等提供了便捷的仿真-真实环境迁移通道,能够将仿真训练得到的策略迁移到真实机械臂中.然而,仿真-真实迁移中由于光照、背景、视角、操作物体、物理引擎的变化,仍然存在较大的难度,因此也有许多研究选择直接使用真实机械臂上采集的数据集进行训练.相比较而言,直接使用实体机械臂进行数据采集和策略学习需要昂贵的时间成本,同时需要解决策略安全性等问题.但随着许多高质量在真实机械臂专家示教数据集的公开,研究者可以使用公开数据集进行策略模仿学习,降低了数据获取的成本.常用的机械臂专家示教数据集包括MT-Opt[271,BridgeData[281,RH20T [291,ManiSkill2 [26,Open-X[20]等.例如,最新公布的Open-X[20]数据集包含了来自22个不同的机器人实体,涵盖500多个不同的机器人任务,共计超过1M条机器人轨迹,大大促进了领域的发展.通用操作接口(universal manipulation interface,UMI)30]使用手持夹爪和鱼眼镜头,提供了一种廉价的数据采集方案.
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
