VLA模型具备成为具身智能基础模型潜力。视觉-语言-动作模型(VLA)代表一类旨在处理多模态输入与输出的模型,通用性是VLA模型的核心特点之一,体现在其以多模态大语言模型为底座,具备“理解万物”的能力,VLA模型的理解能力和多任务泛化能力让模型在不同的应用场景中具备出色表现,展现出超越自动驾驶乃至机器人等单独垂域应用的潜力,有望成为广义具身智能基础模型范式。
VLA模型是自动驾驶向知识驱动、体验优先升级的技术基础。我们认为汽车领域智能化的最终形式是实现驾驶领域的通用人工智能,而非简单的汽车电子软件智能化,这使得汽车从第三人称智能化向第一人称智能化、由数据驱动向知识驱动进化成为自动驾驶进化的未来趋势,而VLA模型特别是其中语言类大模型的成功引入则奠定了范式转变的技术基础。底层技术逻辑升维也带动了车端应用焦点由基本功能实现向人车交互性、极端场景通过性等体验提升转变,中期维度看,不同车企自动驾驶的模型性能领先、功能领先将转化为体验领先并重塑汽车行业产品生态,知识驱动范式的智能化模型也将重新定义自动驾驶,行业将真正开启电动智能化下半场角逐。
工程化部署能力是当前车端VLA核心矛盾。现有车端VLA技术路线尚未收敛且工程部署较少,但由于汽车面临的结构场景和任务单一、硬件结构较统一、数据和汽车保有量高、车端算力相对充足等因素,车端VLA范式落地前景已经较为明朗。我们认为:1)在汽车VLA模型的数据闭环构建过程中,获取良好3D中间表征、强化模型长时序记忆能力与端侧计算效率、优化模型架构、构建高保真的云端模拟环境等环节是VLA端侧工程部署的关键。2)在模型训练方法上,行为克隆(初步训练端到端模型)+逆强化学习(从专家数据中初始化奖励函数)+强化学习(通过与环境交互改善模型和奖励函数)方案或将成为未来自驾模型训练主流方案。
具身智能本质是自动驾驶的升维问题,构建数据闭环是关键。具身智能的场景、任务复杂度更高、本体自由度更高、感知方式更灵活、硬件构型更差异化等因素决定了具身VLA模型的数据闭环构建难度远超自动驾驶;但同时智能汽车实质上是物理智能体的具体形式之一,自动驾驶与具身智能在核心的智能化能力即模型构建方法论以及具体的硬件零部件领域有诸多可迁移之处,因此具身智能本质是自动驾驶的升维问题。我们认为,当前以人形机器人为代表的具身智能关键问题在于还无法进行有效的数据采集进而实现数据闭环,而无法Scaling的具身模型就无从实现智能化。在当前阶段,标准化与模型性能优化是破局的关键点:1)首先需要标准化,尤其是底层硬件、通信协议的标准化,底层零部件和软件基础标准化是机器人统一构型以进行规模化数据收集破局数据-模型能力的鸡生蛋问题以及壮大行业供应链的关键;2)模型优化核心在于闭环模型构建以及模型物理交互能力建设,其中物理交互能力的引入或是未来人形机器人向真正具身智能体转化的关键。投资建议:建议关注本轮智能化进展较快的整车企业理想汽车、小鹏汽车
风险提示:1)新技术迭代风险、2)市场竞争加剧风险、3)宏观经济环境波动风险
1.自动驾驶模型范式由数据驱动向知识驱动升维
1.1.自动驾驶两大趋势:模型数据驱动转向知识驱动、模型功能至上迈向驾乘体验优先
随着自动驾驶从单一感知任务向感知-决策-执行的综合任务转化,自动驾驶不仅对于所收集数据的模态多样性与丰富度要求提升,对于模型本身的思考、理解能力要求也愈发提高。仅仅依靠大量收集自动驾驶数据训练的模型(数据驱动)只能是第三人称智能,即从旁观者角度学习、模仿人类行为却无法具备自我思考能力。我们认为汽车领域智能化的最终目标是实现车端的通用人工智能,而非简单的汽车电子软件智能化,这要求汽车具备第一人称智能,即依靠自身思考能力探索环境、获取一般知识,而不是执行预先定义的人类规则或从收集的数据中描绘抽象特征,这使得从数据驱动范式向知识驱动范式的转变成为自动驾驶进化的未来趋势,而LLM等语言类大模型的成功引入则奠定了范式转变的技术基础。
数据驱动转化为知识驱动是自动驾驶由功能实现迈向体验升级的底层技术逻辑。知识驱动范式并非完全跳脱数据驱动方法,而是在原有基础上增加了知识框架设计,知识驱动本身也需要不断从数据中进行总结提炼以获得涌现能力,数据驱动向知识驱动转化的过程即是焦点从自驾基本功能实现向人车交互性、极端场景通过性等体验提升转化的过程。知识驱动的方法更为关注模型类人性、泛化性与通识能力的实现,使汽车不再是单纯的驾驶工具而是成为一个能够与用户进行沟通,能理解用户意图甚至提供情绪价值的物理智能体。
我们认为,在不久的将来,不同企业自动驾驶的模型性能领先、功能领先将转化为体验领先并重塑汽车行业产品生态,知识驱动范式的智能化模型也将重新定义自动驾驶,行业预计将迎来智能化“iphone 4时刻”并真正开启电动智能化下半场角逐。
1.2.传统基于规则的模块化算法核心缺陷在于无法Scaling
传统规则驱动的模块化算法多衍生自机器人算法,该模式下通常将自动驾驶功能拆分为独立模块,这些模块通常包括地图构建、环境感知、目标检测、定位、决策规划、车辆控制等,每个模块有自己独立的算法和处理流程,不同模块间采用人为定义的接口进行连接,各个模块之间进行相对独立的开发和测试,最后将它们集成实现自动驾驶功能。模块化算法很大程度上依赖人工定义的规则和先验知识,其核心优势在于模型的可解释性,在出现系统问题或部署失败时容易调试。例如丰田TSS、百度Apollo 3等早期模型都是模块化算法代表。
传统的规则式模块化算法存在固有问题,核心缺陷在于无法Scaling:1)模块之间独立研发与人为定义接口导致信息传递损失,无法达到全局最优,且最终结果无法反向传播以优化模型性能;2)基于人为定义的规则驱动,陌生环境鲁棒性差,长尾问题难以解决;3)模块间的累积误差会影响最终结果;4)成本问题,实现一个较为稳定的传统规则式自驾系统约需要数万条各类人工输入规则,而一个无限接近人类司机的自动驾驶系统等效于数亿条规则,在实际工程落地中几乎是不可能事件。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
