AGI(通用人工智能)专题之二:“文心一言”发布,国内厂商距离复现ChatGPT有多远?.pdf

“文心一言”展现了足够的文案创作能力,为B端降本增效的起始逻辑已经明晰。出于商业角度考虑和高昂的端侧微调成本,厂商普遍放弃开源,转而以提供 API 的方式供下游用户在特定场景下进行推理使用。以 ChatGPT 为例,OpenAl 并未公布其基础模型(GPT3.5、GPT4)技术细节,用户仅能够在自身应用内通过API调用其模型。从第一批用户实际使用来看,“文心一言”已经展示了基础文案工作能力,除此前接入650家企业外,发布当日有6.5万家企业申请测试,签约5家客户,一定程度反映了企业客户的认可程度。

用户交互能够进一步改善模型表现,我们判断这也是公司急于推动模型面世的原因之一。OpenAl自GPT-3便开始对外提供服务,通过开放给公众,GPT3收集来自用户输入内容的多样性数据,从而迭代出效果更好的模型,这就决定了GPT4是站在用户交互飞轮的巨人肩膀上,与文心一言并不在同一起跑线。但是海量用户群也是百度的长处之一,GPT的飞轮效应是可复制的。尽管尚未对公众大范围开放,企业用户已经能够申请内测邀请码,邀请范围若持续扩大,飞轮效应将推进“文心一言”表现改善,且优化空间极大。

我们判断,尽管上下文理解、语义逻辑、多轮对话方面尚有欠缺,”文心一言”在部分问题处理上已经能够对标 GPT3 水平,但具体表现仍需时间和公众验证。我们依然认为,人工智能必然成为产业发展长期主线,国产替代具有需求上的紧迫性。以“文心一言”发布为契机,我们重点分析国内主流科技企业在复现ChatGPT领域需要克服的差距,判断对国产大模型的发展不必过度悲观。

年论文发表及专利数占优,但在复现过程中大量细节都并不明朗,如提示学习的具体机制、算法如何泛化、算法微调的具体环节、数据标签的设置等。

从国产实践来看,学术界已有相对成功复现先例,但尚未工程化落地。百度“文心一言”外,清华智谱ChatGLM亦引入了监督微调、反馈自助、人类反馈强化学习等技术,尽管参数量较小,输出表现良好。2022 年 11 月,斯坦福大学大模型中心对全球 30 个主流大模型进行了全方位的评测,GLM-130B 是亚洲唯一入选的大模型,评测报告显示 GLM-130B 在准确性和公平性指标上与 GPT-3接近或持平,鲁棒性、校准误差和无偏性均优于GPT-3。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)