根据一些学术论文的研究,在推理过程中增加计算资源,能够有效提高大模型的输出质量。这相当于在现实生活中,人在遇到较难的问题是也需要更多的思考时间或思考量。
这一思路逐渐总结为推理时计算拓展,并逐渐演变出3条主要路径。例如,OpenAJ发布的o1模型通过动态扩展思维链(Chain-of-Thought)长度,并采用了自我验证机制,生成多个候选答案后通过内部评分筛选最优解。
推理模型发展的前置因素②——基于可验证奖励的强化学习(RLVF)
除了推理时计算拓展,基于可验证奖励的强化学习(RLVF)帮助大模型真正掌握长链推理。DeepSeek、OpenAI Codex、k1.5、TŮLU 3等最新一代模型的技术论文都披露了类似范式,并在编程竞赛、数学推导与通用推理benchmark上验证了RLVF的显著收益。
各家陆续发布推理模型,获取推理模型入场券
受「推理时计算拓展」与「可验证奖励强化学习」两大技术范式驱动,全球厂商已进入推理模型密集发布期:从2024年Q4到2025年Q2,OpenAl o1、DeepSeek R1、Claude 3.7 Somnet Reasoning、k1.5、文心X1-Turbo等十余款推理模型相继上线,争夺下一代大模型的“推理入场券”。
本文来自知之小站
PDF完整报告已分享至知识星球,微信扫码加入立享4万+最新精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
