清华大学自动化系：2023预训练大模型与医疗：从算法研究到应用.pdf

1.模型角度：模型参数不再是随机初始化，而是通过一些任务(如语言模型)进行预训练
2.数据角度：将训练任务拆解成共性学习和特性学习两个步骤两类典型的大语言模型
·BERT:Bidirectional Encoder Representations fromTransformers
·双向模型，同时考虑前文和后文
·采用掩码语言模型(masked language model)和下一句预测任务(nextsentenceprediction)进行预训练，使得模型能够学习到上下文关系和词汇语义
·通常用于文本分类、序列标注、问答等任务
·GPT:Generative Pre-trained Transformer
·单向模型，只考虑前文，不考虑后文
·采用自回归(autoregressive)的方式生成文本，即逐个生成下一个词
·通常用于生成文本、对话、问答等任务

本文来自知之小站

报告已上传百度网盘群，限时15元即可入群及获得1年期更新

（如无法加入或其他事宜可联系zzxz_88@163.com）

相关文章

交通运输部重点实验室建设指南（第一批）.pdf

建材新材料行业研究：AI PCB升级迭代，通胀看上游新材料.pdf

嘉法邦(南通)法律咨询公司企业运营管理及日常风险防范法律风险白皮书.pdf