计算机行业深度报告：大模型应用百花齐放，AI发展进入新时代.pdf

OpenAl正式发布GPT-4，具有多模态能力，应用范围更广。3月15日，OpenAl 正式发布GPT-4预训练大模型，相比于GPT-3.5性能表现显著提升，在一些专业和学术领域上已经达到了人类水平。GPT-4具有一定的多模态能力，能够接收图文结合的输入，并输出文本回复，应用范围得到进一步拓展。基于GPT-4对话交互的特性，我们认为，GPT-4将率先在教育、医疗、企业经营管理办公等领域实现落地，场景与人工智能的结合方式值得期待。

百度的对话式大模型“文心一言”正式发布，多模态生成能力亮眼。3月16日下午，百度正式揭开了“文心一言”的面纱。“文心一言”具备五大能力，中文理解能力强，并且支持从文本生成图像、音频和视频，多模态能力十分亮眼。目前已有650家企业成为了“文心一言”的首批生态合作伙伴，落地场景涵盖各行各业。我们认为，国产大模型的发布将带来诸多产业机会，MaaS未来将有望成为大模型落地的新形态，中国生成式Al市场有望迎来需求的大幅增长。

微软推出Mic rosoft365 Copilot，办公场景根本性变革。3月16日晚，微软宣布将GPT大模型引入Office应用程序，推出了Microsoft365Copilot，帮助用户提高办公生产力。Copilot打通了微软的办公产品线，数据在各个产品中能够自由流通。作为核心的流程编排引擎，Copilot大幅提升了用户在办公场景、业务协作场景、流程自动化场景的效率。

英伟达GTC 2023召开，展现Al多领域应用。3月21日晚，英伟达CEO黄仁勋为GTC 2023进行了主题演讲，对英伟达在AI应用、加速计算等领域的最新动态进行了介绍。在本次演讲中，英伟达推出了DGX 云服务，方便企业客户更快地访问英伟达Al算力与应用库。对想要建立独有的垂直领域行业模型的客户，英伟达推出了Al Foundations一站式云服务，协助客户快速构建、优化和运营大模型，把制造大模型的能力传递到每一个用户。

1） GPT-4具有一定的多模态能力，能够进行图文结合输入的分析。GPT-4是一个多模态模型，

它能够接受图片和文本输入，并输出文本回复，相比GPT-3.5增加了对图像模态的分析推理能力。与业界之前的预测不同，GPT-4并不具备多模态的生成能力，即无法从文本输入中得到图片（类似于DALL-E），只能对图片的输入进行分析，并且图片输入目前仍处于研究预览阶段，还未对公众开放。根据OpenAI显示，GPT-4对图片的处理分析能力达到了很高的水准，这相当于机器拥有了视觉并且能够进行思考，在应用层面有非常广的空间。比如，完全可以成为视力障碍人群的眼睛，给出题目的图片能够直接进行解题步骤的输出等，在教育领域有广泛的落地场景。

本文来自知之小站

PDF完整报告已分享至知识星球，微信扫码加入立享4万+最新精选报告

（星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com）

相关文章

亚洲开发银行2024年年度报告.pdf

全球医药、医疗行业：GenAI前沿实践更新，Agent化落地成主线.pdf

出海正当时系列报告：中国小分子液相色谱设备出海形势.pdf