清华大学自动化系:2023预训练大模型与医疗:从算法研究到应用.pdf

1.模型角度:模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练
2.数据角度:将训练任务拆解成共性学习和特性学习两个步骤两类典型的大语言模型
·BERT:Bidirectional Encoder Representations fromTransformers
·双向模型,同时考虑前文和后文
·采用掩码语言模型(masked language model)和下一句预测任务(nextsentenceprediction)进行预训练,使得模型能够学习到上下文关系和词汇语义
·通常用于文本分类、序列标注、问答等任务
·GPT:Generative Pre-trained Transformer
·单向模型,只考虑前文,不考虑后文
·采用自回归(autoregressive)的方式生成文本,即逐个生成下一个词
·通常用于生成文本、对话、问答等任务

本文来自知之小站

 

报告已上传知识星球,微信扫码加入立享4万+深度报告下载及1年更新。3天内不满意退出星球款项原路退回,欢迎试用。到期续费仅需5折

(如无法加入或其他事宜可联系zzxz_88@163.com)