中文大模型基准测评2025年年度报告.pdf

1.海外闭源模型仍占据榜单头部位置。
在本次2025年年度中文大模型基准测评中，Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分的总分位居榜首，Google的Gemini-3-Pro-Preview(65.59分)和OpenAI的GPT-5.2(high)(64.32分)紧随其后。国内开源最佳模型Kimi-K2.5-Thinking(61.50分)和闭源最佳模型Qwen3-Max-Thinking(60.61分)分列全球第四和第六。
2.国产大模型正从”跟跑”向”并跑”阶段加速演进。
从2025年年初DeepSeek-R1发布，以对标OpenAl o1的性能极大地缩小了海内外模型的差距，到Kimi-K2.5-Thinking和Qwen3-Max-Thinking的发布分别在代码生成任务和数学推理任务上领跑全球，越来越多的国产大模型开始加速追赶上国际顶尖大模型的步伐，甚至在部分领域有所超越。
3.海内外开闭源模型结构性差异显著。
闭源阵营呈现出”海外领先、国产追赶”的格局。海外闭源模型以Claude、Gemini、GPT为代表，构成了海外闭源大模型的第一梯队。国产闭源模型以Qwen3-Max-Thinking、Doubao-Seed-1.8-251228(Thinking)、ERNIE-5.0为代表，虽然与海外头部仍有差距，但已形成有效的竞争态势。开源阵营则呈现出”国产主导、海外式微”的格局。国产开源模型以Kimi-K2.5-Thinking、DeepSeek-V3.2-Thinking、GLM-4.7为代表，构成了国产开源模型的第一梯队，媲美海外顶尖闭源模型。海外开源模型的表现相对平淡，gpt-oss-120b、Mistral等被国产开源模型大幅超越。

本次测评包括六大任务：数学推理、科学推理、代码生成(含web开发)、智能体(任务规划)、幻觉控制、精确指令遵循。测评集
共998道题，共测评23个国内外大模型，最终得分取各任务平均分。

本文来自知之小站

报告已上传百度网盘群，限时15元即可入群及获得1年期更新

（如无法加入或其他事宜可联系zzxz_88@163.com）

相关文章

2026中国咖啡机行业市场白皮书.pdf

2026中国企业全球化人才战略白皮书.pdf

2026Q1中国小微经营者调查实证.pdf