执行摘要
深度学习持续成为技术创新中最具活力的领域之一,专利活动显示出持续加速的增长。基于我们对深度学习和大型语言模型的前期研究,本报告通过专利申请分析了下一波创新浪潮,重点关注多模态人工智能、智能代理和数字人。这三个领域正在快速兴起,并日益融合,朝着更加自主、交互和以人为本的人工智能系统发展。
专利格局显示,少数全球科技领导者通过将基础模型、自主能力和类人界面结合为连贯的创新战略,正在塑造这一转型。
谷歌通过其Gemini系列模型将自己定位为核心技术领导者。作为原生多模态设计,Gemini集成了文本、视觉、音频和视频,同时逐步嵌入代理推理能力。谷歌的专利策略反映了其对国际保护的强烈重视,支持其部署多模态和基于代理的Al在全球范围内在搜索、云服务和生产力工具上的雄心。
百度作为垂直整合度最高的参与者脱颖而出。凭借ERNIE多模态引擎、GenFlow和AgentBuilder用于智能体,以及快速扩张的数字人技术组合,百度在一个统一的堆栈中覆盖了所有三个领域。其专利领导地位,特别是在数量上,突显了一种以大规模部署为中心的策略。
.英伟达主导了数字人领域。虽然它不将自己定位为通用人工智能助手提供商,但英伟达提供了实现具身人工智能所必需的基础设施、平台和工具链。其Omniverse和Avatar Cloud Engine技术支持高度逼真的数字人和多模态交互,并拥有非常强大的国际专利组合。
微软采用以企业为中心的方法,将多模态人工智能和智能代理直接连接到业务工作流程。利用其与OpenAl的合作以及自己的代理框架,微软将Copilot跨Office集成云和企业软件。其专利申请显示了一种均衡的战略,结合了稳固的产品组合规模和高比例的国际家族,反映了在专业和企业人工智能领域的全球雄心。
国际商业机器公司(IBM)成为智能代理领域的核心领导者,其Watsonx.ai平台和Gravit�基础模型家族提供支持。IBM的战略专注于专业和企业级AI系统。虽然在其面向消费者的应用中不那么显眼但IBM强大的专利地位证实了其作为企业环境中基于代理的AI基石角色。
一、引言
深度学习是人工智能的核心技术层,基于能够从大型数据集中学习层次化表示并擅长图像识别、语音识别和自然语言处理等感知任务的多层人工神经网络。在这一技术层中,生成式人工智能(GenAl)于2016年左右兴起,作为一个专注于使用VAEs、GANs、扩散模型、Transformer等技术创建新内容文本、图像、视频、音频、代码或合成数据的分支,尤其是大型语言模型(LLMs)。LLMs是基于Transformer的系统,在大量语料库上进行训练以理解、生成和操作自然语言,具备推理、摘要、翻译和对话交互等能力。与这些基础人工智能层次不同,几个领域已发展成为构建于其上的应用:
•多模态AI指的是能够在多种模态或数据类型(文本、图像、音频、视频、传感器数据等)之间处理、理解和生成信息的系统。通过整合并推理不同形式的输入,这些系统产生统一的理解,并能生成连贯跨越模态的输出(例如,带说明文字的图像、有声视频或同步的音频视频响应)。这种多模态能力比单模态人工智能更能实现更丰富的感知、更自然的人机交互以及更灵活的内容生成。
•智能体是自主或半自主的AI系统,通过传感器(这些传感器可以包括视觉、音频或其他传感器数据)感知其环境,根据给定的目标做出决策,并采取行动以实现特定目标。基于深度学习、多模态理解以及生成或推理能力,这些智能体可以独立运行、从经验中学习、与人类和其他智能体交互,并适应不断变化的环境。这使得它们适合于任务自动化、规划、人机协作、响应式辅助或自适应决策支持等动态任务。

本文来自知之小站
报告已上传百度网盘群,限时15元即可入群及获得1年期更新
(如无法加入或其他事宜可联系zzxz_88@163.com)