汽车零部件行业专题:SORA的诞生对智能驾驶行业的影响

类别:行业 机构:国投证券股份有限公司 研究员:徐慧雄/李泽 日期:2024-02-26

  Sora 是文生视频的集大成者,核心创新点在于时空编码和DiT 模型。

      Sora 是Open AI 推出的首个文本生视频模型,视频生成长度、逼真度等均远超现有竞品。从技术上看,Sora 的核心创新点在于时空编码和DiffusionTransformer 模型的应用。1)Spacetime patches 时空编码将一个完整视频切分成带有时间维度的一系列Tokens 输入Transformer 模型,时空编码的引入是Sora 能够进行大规模视频数据训练的关键,同时为Sora 的生成结果具备三维一致性奠定了基础。2)DiT 模型结合了Diffusion 扩散模型和Transformer 模型的优点,将传统扩散模型中采用的U-Net 网络结构替换成Transformer,使得模型更擅长捕捉长距离的相关关系。

      Sora 验证了Diffusion+Transformer 的技术路线或是通往世界模型的有效技术路径。神经网络模型的预测结果是概率输出,目前尚不具备因果关系的推断能力,因此推理结果可能会出现常识错误或者违背现实物理规律。而学界提出的世界模型概念旨在希望神经网络模型可以像人类一样理解世界,具体可概括为具备以下三个特点:1)理解物理世界运行规律,像人一样具备常识。2)具备泛化到训练样本以外的能力。3)可以基于记忆进行自我演进。目前关于世界模型的技术路径尚有争议,但从Open AI 的官方展示视频来看,Sora 已经具备了世界模型的雏形,对于真实物理世界有一定的模拟能力。因此我们认为Sora 采用的Diffusion+Transformer 的技术路线或许是通往世界模型的有效技术路径。

      特斯拉同样基于与Sora 相似的技术路径已开始对世界模型进行探索。

      早在2023 年6 月召开的CVPR 会议上,特斯拉已经分享了对于世界模型的探索,Demo 展示效果惊艳:1)可以同时对车身周围八个摄像头周围未来情况进行预测;2)可以精准的模拟过去难以描述的场景(如烟尘);3)可以根据动作指令调节;4)可以用来做分割任务。根据特斯拉CVPR 上的演讲及马斯克推特的公开回复,可以推断特斯拉大概率和Open AI 一样采用的是Diffusion+Transformer 生成式AI 的技术路线。而Sora 的成功已经率先在AGI 领域验证了这条技术路线的可行性,由此我们认为World Model应用于智能驾驶的时代亦将加速到来。

      世界模型中短期内应用于仿真环节,长期作为智驾基座大模型,引领行业迈向L5 时代。世界模型在智能驾驶中的应用有望最先在仿真环节落地,推动仿真场景泛化能力提升。当前智能驾驶仿真采用NeRF+素材库排列组合+游戏引擎的技术路线,虽然保证了场景的真实性但泛化性不足。世界模型能够理解物理世界运行规律、同时具备泛化到训练样本以外的能力,因此世界模型能够迅速生成非常真实和多样化的驾驶场景用于智能驾驶仿真。长期来看世界大模型有望成为智驾的基座大模型,所有的智能驾驶下游任务都可以通过简单的插入任务头来实现。届时,智能驾驶将不再存在corner case,智能驾驶的驾驶安全性、驾驶效率都将占优于人类驾驶员。

      风险提示:技术进步不及 预期、市场竞争加剧。