2025年1月,我国人工智能企业DeepSeek以全新技术路径和开源策略引发全球瞩目。通过创新模型架构和训练方法,DeepSeek实现了低成本与高性能的有机统一。其开放包容的发展理念有望推动人工智能开源生态繁荣,为我国人工智能产业实现跨越式发展、各行业推进智能化升级带来重要机遇。建议加快构建以原创理论突破为引领、以开放创新生态为支撑、以安全发展体系为保障的人工智能发展新格局,推动我国人工智能产业发展实现跃升。
一、DeepSeek的创新性突破
(一)以技术创新构筑成本与性能优势
DeepSeek不同于依赖巨量参数及算力堆砌的主流大模型发展模式,其凭借模型架构创新实现成本与性能的双重突破,为人工智能技术发展开辟新路径。一方面,通过压缩时间空间复杂度降低模型开发成本。其V3版本通过多头潜在注意力机制和FP8混合精度训练等技术手段减少内存占用,降低运算资源消耗。利用DualPipe跨节点通信、无辅助损失的负载均衡策略、跨节点全对全通信等方法,增加并行计算规模,提升模型训练效率。DeepSeek V3技术报告披露其以557.6万美元的投入,用2048块英伟达H800 GPU完成了训练,据公开数据测算,该成本约为大模型Meta Llama 3.1的10%,OpenAI Gpt-40的6%。另一方面,运用强化学习技术提升模型性能。在V3版本基础上,DeepSeekR1利用冷启动数据监督微调与多阶段强化学习训练策略,提升模型推理能力,优化输出可读性。在数学推理、编程竞赛等复杂任务中,DeepSeek R1表现优异,比肩顶尖大模型OpenAI-01-1217。(二)以深度开源助力开放与合作生态
DeepSeek全方位的开源策略加速了人工智能技术的普及与创新,推动形成更加开放包容的技术生态。在开源深度方面,DeepSeek将旗舰版本DeepSeek V3和DeepSeek R1的模型权重、训练框架全部开放,并通过技术报告详细公开了所采用的学习算法和奖励函数等核心技术细节。与Meta Llama需要申请访问权限、限制用户规模、禁止竞争性用途不同,DeepSeek采用宽松的MIT开源协议,在仅要求保留版权声明的前提下,允许开发者自由使用、修改、分发甚至商业化,为技术创新和产业发展提供了极大自由度。在社区建设方面,DeepSeek展现出强大吸引力。在软件项目托管平台Github,截至2月19日,DeepSeek V3星标数达到8.6万,DeepSeek R1星标数达到7.8万,均超过OpenAI最多收藏的项目。在全球最大开源社区Huggingface,DeepSeek V3及R1模型1月份下载量合计达610余万次,与DeepSeek相关的模型达到5000余个,DeepSeek R1成为该平台上有史以来最受欢迎的模型。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
