中文大模型基准测评2025年年度报告.pdf

1.海外闭源模型仍占据榜单头部位置。
在本次2025年年度中文大模型基准测评中,Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分的总分位居榜首,Google的Gemini-3-Pro-Preview(65.59分)和OpenAI的GPT-5.2(high)(64.32分)紧随其后。国内开源最佳模型Kimi-K2.5-Thinking(61.50分)和闭源最佳模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六。
2.国产大模型正从”跟跑”向”并跑”阶段加速演进。
从2025年年初DeepSeek-R1发布,以对标OpenAl o1的性能极大地缩小了海内外模型的差距,到Kimi-K2.5-Thinking和Qwen3-Max-Thinking的发布分别在代码生成任务和数学推理任务上领跑全球,越来越多的国产大模型开始加速追赶上国际顶尖大模型的步伐,甚至在部分领域有所超越。
3.海内外开闭源模型结构性差异显著。
闭源阵营呈现出”海外领先、国产追赶”的格局。海外闭源模型以Claude、Gemini、GPT为代表,构成了海外闭源大模型的第一梯队。国产闭源模型以Qwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)、ERNIE-5.0为代表,虽然与海外头部仍有差距,但已形成有效的竞争态势。开源阵营则呈现出”国产主导、海外式微”的格局。国产开源模型以Kimi-K2.5-Thinking、DeepSeek-V3.2-Thinking、GLM-4.7为代表,构成了国产开源模型的第一梯队,媲美海外顶尖闭源模型。海外开源模型的表现相对平淡,gpt-oss-120b、Mistral等被国产开源模型大幅超越。

本次测评包括六大任务:数学推理、科学推理、代码生成(含web开发)、智能体(任务规划)、幻觉控制、精确指令遵循。测评集
共998道题,共测评23个国内外大模型,最终得分取各任务平均分。

本文来自知之小站

 

报告已上传百度网盘群,限时15元即可入群及获得1年期更新

(如无法加入或其他事宜可联系zzxz_88@163.com)