我们认为,多模态大模型和应用发展的奇点将至。判断依据包括:1)技术进步方面:原生多模态模型架构得到业界认可,OpenAI和Google的原生多模态模型已经在性能、延时、部署上展现出了优势。2)商业化进展方面:全球维度看,除了最头部的OpenAl和Anthropic依靠模型“智能”实现商业化,相当一部分AI应用公司的商业化产品依赖多模态能力。国内维度看,国内公司在视频生成赛道已经实现了较成熟的全球化和商业化之路。与市场不同的观点在于,1)更早认识到原生多模态架构将成为主流:2)Al商业化不能仅聚焦在二级公司,更要关注全球维度一级公司的进展。
多模态是大语言模型(LLM)发展的必然趋势借助Scaling Law和强化学习,LLM已经在很多领域获得了超过普通人类的智能,但是其处理的核心信息仅是文本。为了拓展更广泛的使用场景,研究者将其他模态的能力“加入”到LLM中,多模态大型语言模型(MLLM)问世。架构上看,MLLM可以分为模块化架构和原生架构,前者通常分别训练不同模态然后实现模块“拼接”,而后者则直接在全部模态数据上从头开始同步训练的模型。效果上看,原生MLLM在性能、延时、部署上均有优势,但是对算力和Know-How的需求较高,通常只有头部模型大厂在做,OpenAl和Google领先。无论架构如何,MLLM已经成为行业共识的必然趋势。
从大模型到多模态:商业化的必由之路
从全球AI公司的商业化进展看,无论是基于LLM的文本类产品,还是基于MLLM的多模态产品,呈现出以下大趋势:1)海外商业化进展快于国内。2)全球维度,一级公司进展快于二级。3)整体多模态为主的产品商业化快于文本产品。4)Chatbot为代表的文本类产品国内外商业化分歧明显,据非凡产研数据,截至25年5月,在海外能够实现10亿美金以上的ARR(如OpenAl、Anthropic),而国内Chatbot还未实现很好的商业化。国内Al产品年化收入超过1亿美金的有3家公司,分别为美图(1357 HK)、快手(1024 HK)和睿琪软件(非上市),其Al产品均为多模态产品。
国内的视频生成是全球化、商业化最成熟的Al应用赛道主流的多模态产品,大致分为图像生成、视频生成和其他多模态交互三类。其中,国内厂商在视频生成赛道的全球化和商业化最成熟。1)模型/产品成熟:据Artificial Analysis数据,在文生视频、图生视频排行榜单上,字节Seedance 1.0均为Top 1,快手可灵(Kling)、MiniMax Hailuo 02名列前茅。2)商业化成熟:以快手可灵为典型的代表,上线9个月累计收入超1亿人民币,25Q1(上线10个月左右)ARR突破1亿美金大关。可灵的成功,或意味着国内视频生成领域商业化单点突破到多点突破的开始。
投资建议
我们认为,多模态有望在算力和应用两方面带来相关投资机会。1)算力侧,供给端原生多模态模型需要比非原生模型更多的算力,需求端视频的推理算力需求远大于文字,视频Agent的落地进一步催生推理算力需求。2)应用侧,供给端国内的视频生成模型领先,需求端广告、零售、创作、教育等领城均有AI化需求。推荐1)国产算力链:沪电股份、生益科技。2)应用产业链:微软、奥多比、金山办公、福昕软件、泛微网络、鼎捷数智、用友网路、虹软科技、网宿科技。
风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。
和市场不同的观点
1)市场对多模态模型基础架构上有认知差,原生多模态还没成为主流叙事大多数现有的MLLM采用模块化架构,即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM将视觉感知和多模态理解直接集成到单个LLM中,由于其端到端性和统一性,原生MLLM可以更容易地使用现有的LLM推理库进行部署,并且比模块化MLLM显示出更高的效率。
在原生MLLM领域,全球较为领先的玩家主要是OpenAI和Google,后续Meta在Llama 4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于OpenAl和Google的原生MLLM旗舰模型为闭源,且Llama 4虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生MLLM进行技术性分析。从效果上看,Gemini和40的原生多模态,展现出指令跟随好、时延短、一致性强的优势。
原生MLLM通常需要较高的训练成本和训练Know-How,一般只有头部的模型厂商才会采取这种架构。反观国内,已经实现原生多模态且参数规模较大的模型还未问世,虽然字节豆包等Chatbot也能实现各种模态的输入和输出,但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态,但是实际底层Know-How差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距,以及可能带来的新训练算力需求。
2)市场更关注国内二级公司的商业化进度,而忽略了全球维度内一级公司的商业化进展据我们估算,截至最新年度或季度,国内典型C端AI应用上市公司AI收入占总收入比重约12.5%,海外典型C端公司为13.1%:国内典型B端Al应用上市公司AI收入占总收入比重约9.0%,海外典型B端公司为9.4%。因此市场广泛判断AI应用,尤其是2B进展不及预期(AI收入体量一般在年化1亿美金)。
然而,纵观全球包含一级公司在内的Al应用公司,OpenAl、Anthropic、Scale AI年化收入均在10亿美金以上,OpenAI甚至已经达到100亿美金。此外,像AI原生应用Midjourney(图像生成)年化收入已经达到6亿美金,Cursor(AI Coding)达到5亿美金,6sense(AI营销)达到2亿美金,manus短短几个月也实现了近5000万美金年化收入,AI应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的Al应用多数出海、2B市场进展较慢,导致国内市场产生了认知偏差,忽略了全球维度的AI应用商业化进步。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
