AI模型系列报告:从世界模型看算力需求变化.pdf

核心观点
8ora是第一个表现出”涌现”能力的视频生成模型:随着模型规模增大而出现“理解世界”的能力。虽然许多LLM,如
ChatGPT和GPT-4,表现出涌现能力,但在Sora出现之前,展示类似能力的视觉模型一直很少。根据Sora的技术
报告,它是第一个表现出确认的涌现能力的视觉模型,标志着计算机视觉领域的一个重要里程碑。8ora的成功源于Diffuaion Tranaformer架构的引入,和过去多年高质量数据的积系。
从架构上看,视频生成模型的技术路战开始收数,Sora的Diffuaion Tranaformer架构证实了有效soale-up也即是增加算力能够对提升视频生成的精细度和效果,是视频生成领城的“OPT-3时刻”。类似于GPT-3证明了更大的训练量、模型参数量、Token数量,训练效果越好。引入了Transformer的Sora也表现出了同样的趋势,OpenAI进行了32x训练量和1x、4x训练量的对比,从结果上看,32x训练量的生成效果远远强于1x和4x的生成效果。在Sora发布后Google、Snap也发布了采用类似技术的视频生成模型,确定了DiffusionTransformer的视频生成路线,并且算力的需求会大大提升。
从数据上看,高质量的数据对视频生成模型的训练至关重要,Sora利用自有工具增强训练数据集与提示工程。0penAI训练了专用的视频字幕模型来为视频生成详细描述,生成高质量的视频-字幕对,用于微调Sora以提高其指令跟随能力。同时为了确保用户提示与训练数据中这些描述性标题的格式保持一致,Sora执行了一个额外的提示扩展步骤,即调用GPT-4V模型将用户输入扩展到详细的描述性提示。
我们认为,随着Diffuaion Transformor类模型大量应用于图像及视频生成,推理需求将大幅增加,与山M推理更需要内存带宽的责源需求不同,视觉模型推理将对芯片本者算力和内存容量提出更高要求。Sora的DiT和大语言模型在推理时的逻辑不同,Diffusion需要约20 Steps优化过程,每次均是计算的完整的patch,访存需求也会大大下降,从LLM推理的访存密集型场景特变成算力密集型场景。
8ora高质量的视频生成对影视和游戏行业的影响是最直接而源远的,降低制作门槛并且很有可能重塑影视和游戏制作的流程与格局。高质量的视频生成对于影视行业的工作流会有深远的影响,前期可以替代掉分镜以及概念片制作,后期可以取代部分特效制作。对于游戏行业,游戏开发人员可能会使用它来生成自定义的视觉效果,甚至是从玩家叙述中生成角色动作。一、Sora模型的特点
1.1 Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距
较长的视频生成时长:Sora可以生成长达60秒的高保真度视频。对比之前的视频生成模型,Pikat.0可以生成3s-7s的视频,Runway的Gen-2可以生成4s-18s的视频。
灵活的分辨率:得益于其训练数据的灵活性,Sora可以生成1080P的任何比例视频,而不是像之前的模型在生成非原生训练比例时会出现画幅的消失。
高保真澄染:在模拟数字世界时,如Minecraft游戏,Sora能够实现高保真的泣染效果,使得生成的视频内容看起来就像真实游戏画面一样。
存在Scal ing Law:更高的算力、更大的模型规模、patch数量的增加能对生成视频的效果有明显的正向提升。
三维空间连贯性:Sora模型能够生成具有正确空间关系和动态相机运动的视频内容,确保视频中的物体在三雌空间中保持连贯的运动。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告(端午优惠进行中)

(星球内含更多未发布精选报告.其它事宜可联系zzxz_88@163.com)