2025多模态大模型和应用发展趋势及商业化进程分析报告.pdf

和市场不同的观点
1)市场对多模态模型基础架构上有认知差,原生多模态还没成为主流叙事大多数现有的MLLM采用模块化架构,即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM,指不依赖预训练大语言模型或视觉编码器,直接在全部模态数据上从头开始同步训练的模型,训练时同时使用图文/语音等数据构建统一目标,无需先后分阶段。原生MLLM将视觉感知和多模态理解直接集成到单个LLM中,由于其端到端性和统一性,原生MLLM可以更容易地使用现有的LLM推理库进行部署,并且比模块化MLLM显示出更高的效率。
在原生MLLM领域,全球较为领先的玩家主要是OpenAI和Google,后续Meta在Llama 4模型的更新中也开始采用原生多模态的架构,但是模态支持较少。由于OpenAI和Google的原生MLLM旗舰模型为闭源,且Llama 4虽然为开源但是并没有公布技术报告或架构细节,因此并没有直接途径对其原生MLLM进行技术性分析。从效果上看,Gemini和40的原生多模态,展现出指令跟随好、时延短、一致性强的优势。
原生MLLM通常需要较高的训练成本和训练Know-How,一般只有头部的模型厂商才会采取这种架构。反观国内,已经实现原生多模态且参数规模较大的模型还未问世,虽然字节豆包等Chatbot也能实现各种模态的输入和输出,但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态,但是实际底层Know-How差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距,以及可能带来的新训练算力需求。
2)市场更关注国内二级公司的商业化进度,而忽略了全球维度内一级公司的商业化进展据我们估算,截至最新年度或季度,国内典型C端AI应用上市公司AI收入占总收入比重约12.5%,海外典型C端公司为13.1%:国内典型B端AI应用上市公司AI收入占总收入比重约9.0%,海外典型B端公司为9.4%。因此市场广泛判断AI应用,尤其是2B进展不及预期(AI收入体量一般在年化1亿美金)。
然而,纵观全球包含一级公司在内的Al应用公司,OpenAl、Anthropic、Scale Al年化收入均在10亿美金以上,OpenAI甚至已经达到100亿美金。此外,像Al原生应用Midjourney(图像生成)年化收入已经达到6亿美金,Cursor(AI Coding)达到5亿美金,6sense(AI营销)达到2亿美金,manus短短几个月也实现了近5000万美金年化收入,Al应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的Al应用多数出海、2B市场进展较慢,导致国内市场产生了认知偏差,忽略了全球维度的Al应用商业化进步。

多模态是大语言模型发展的必然趋势
大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型(LLM)和大型视觉模型(LVM)融合的结果。借助Scaling Law,LLM已经几乎学习了公开可得的互联网级别数据。24年9月OpenAl提出o系列模型后,全球模型在强化学习技术的加持下,进一步获得了思维涌现和强推理能力。但是LLM处理的核心信息是文本,模态较为单一。反观LVM,对于视觉等多模态有优秀的感知能力,但通常在推理方面存在不足。结合LLM和LVM的优势,多模态大型语言模型(MLLM)得以问世。形式上,MLLM指的是基于LLM且具备接收、推理和输出多模态信息能力的模型,能够使用多模态指令微调来增加其遵循人类指令的能力,从而实现基于图片编写网站、理解图像、光学字符识别(OCR)等能力。

本文来自知之小站

 

PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)