林玥煜元始智能算法工程VP
原始智能算法工程VP,曾任大数医达科技有限公司算法总监,阿里巴巴数据事业部系统架构师,多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃医疗场景的应用、开发拥有丰富的实战经验。
1.把每一个Block拆成若干个部分,在训练/预测的时候,不互相依赖的模块可以相互并行计算。
2.在需要状态传递的Time Mixer模块,通过CUDA/FLA扩展,在Channel Wise+Head Wise并行处理。由于Channel和Head的数目很多,通常都超过了一个GPU所拥有的Tensorcore的数目,我们在Time Mixer模块也能充分利用GPU的并行计算能力。
本文来自知之小站
报告已上传知识星球,微信扫码加入立享4万+深度报告下载及1年更新。3天内不满意退出星球款项原路退回,欢迎试用。到期续费仅需5折
(如无法加入或其他事宜可联系zzxz_88@163.com)