Deepseek在药企研发领域的本地化部署和应用场景.pdf

个人部署:Ollma框架适合个人用户私有化本地部署,但在多用户并发场景下性能衰减明显。
企业部署:推荐使用Transformers来快速验证模型能力,使用vLLM框架借助PagedAttention技术实现24倍于Transformers的吞吐量实现大模型的高效推理,针对不同企业场景,则提供不同的企业级部署方案。
其他方式:近期出现的KTransformer s、Unsloth等多套低成本动态量化模型的DeepSeek部署解决方案。目前暂不够成熟。
vLLM部署简单,更适合中小型企业做大模型推理部署,对于大型企业,可以使用配置较为复杂的Tensor RT框架。

DeepSeek R1模型就成了很多应用场景下的当务之急。受限于DeepSeekR1671B(6710亿参数)的模型规模,通常情况下部署Deepseek R1满血版模型需要1200G左右显存(考虑百人内并发情况),需要双节点8卡H100服务器才能运行(总成本约在260万-320万左右),即便是INT4半精度下,也至少需要490G显存,需要单节点8卡H100服务器才能运行。
为了实现低成本DeepSeek R1模型的高性能部署,目前大多数方案都采用了牺牲模型推理速度的策略。使用CPU+GPU混合推理的方式,将一部分推理计算转移到CPU上,降低GPU的负载。由于CPU并不适合深度学习计算,导致模型整体推理速度较慢。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)