计算机行业深度报告:大模型应用百花齐放,AI发展进入新时代.pdf

OpenAl正式发布GPT-4,具有多模态能力,应用范围更广。3月15日,OpenAl 正式发布GPT-4预训练大模型,相比于GPT-3.5性能表现显著提升,在一些专业和学术领域上已经达到了人类水平。GPT-4具有一定的多模态能力,能够接收图文结合的输入,并输出文本回复,应用范围得到进一步拓展。基于GPT-4对话交互的特性,我们认为,GPT-4将率先在教育、医疗、企业经营管理办公等领域实现落地,场景与人工智能的结合方式值得期待。

百度的对话式大模型“文心一言”正式发布,多模态生成能力亮眼。3月16日下午,百度正式揭开了“文心一言”的面纱。“文心一言”具备五大能力,中文理解能力强,并且支持从文本生成图像、音频和视频,多模态能力十分亮眼。目前已有650家企业成为了“文心一言”的首批生态合作伙伴,落地场景涵盖各行各业。我们认为,国产大模型的发布将带来诸多产业机会,MaaS未来将有望成为大模型落地的新形态,中国生成式Al市场有望迎来需求的大幅增长。

微软推出Mic rosoft365 Copilot,办公场景根本性变革。3月16日晚,微软宣布将GPT大模型引入Office应用程序,推出了Microsoft365Copilot,帮助用户提高办公生产力。Copilot打通了微软的办公产品线,数据在各个产品中能够自由流通。作为核心的流程编排引擎,Copilot大幅提升了用户在办公场景、业务协作场景、流程自动化场景的效率。

英伟达GTC 2023召开,展现Al多领域应用。3月21日晚,英伟达CEO黄仁勋为GTC 2023进行了主题演讲,对英伟达在AI应用、加速计算等领域的最新动态进行了介绍。在本次演讲中,英伟达推出了DGX 云服务,方便企业客户更快地访问英伟达Al算力与应用库。对想要建立独有的垂直领域行业模型的客户,英伟达推出了Al Foundations一站式云服务,协助客户快速构建、优化和运营大模型,把制造大模型的能力传递到每一个用户。

1) GPT-4具有一定的多模态能力,能够进行图文结合输入的分析。GPT-4是一个多模态模型,

它能够接受图片和文本输入,并输出文本回复,相比GPT-3.5增加了对图像模态的分析推理能力。与业界之前的预测不同,GPT-4并不具备多模态的生成能力,即无法从文本输入中得到图片(类似于DALL-E),只能对图片的输入进行分析,并且图片输入目前仍处于研究预览阶段,还未对公众开放。根据OpenAI显示,GPT-4对图片的处理分析能力达到了很高的水准,这相当于机器拥有了视觉并且能够进行思考,在应用层面有非常广的空间。比如,完全可以成为视力障碍人群的眼睛,给出题目的图片能够直接进行解题步骤的输出等,在教育领域有广泛的落地场景。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入查阅下载3万+精选资料,年享1万+精选更新

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)