计算机软件行业周报:SORA和GEMINI 1.5发布 多模态大模型更进一步

类别:行业 机构:太平洋证券股份有限公司 研究员:曹佩/王景宜 日期:2024-02-19

  OpenAI 发布视频生成模型Sora,AI 视频生成迎来里程碑。2 月16 日,OpenAI 宣布推出全新的生成式人工智能模型“Sora”。Sora 是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片。与此前的视频生成模型相比,Sora 主要实现了以下突破:

      1)视频时长达到60 秒:Sora 可以通过文本指令直接输出长达60 秒的视频,并保持视频主体与背景的高度流畅性与稳定性。2)文本的深度理解能力:Sora 可以准确理解用户的文本指令,无论是复杂的动作场景还是细腻的情感表达,Sora 都能够精确捕捉并展现。3)对真实世界的理解:Sora 对物理规律的遵循程度较高,对于光影反射、运动方式、镜头移动等细节的呈现效果较为逼真。4)长序列连贯性和目标持久性:Sora 能在单个视频中生成同一角色的多个镜头,并在整个视频中保持其外观。即使人、动物和物体被遮挡或离开画面,Sora 模型也能使其保持不变。

      谷歌发布Gemini 1.5 Pro,上下文长度突破百万。2 月15 日,谷歌宣布了下一代大模型Gemini 1.5 Pro。Gemini 1.5 Pro 是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 基于Transformer 和MoE 架构建立。MoE 模型分为更小的“专家”神经网络,根据给定输入的类型,MoE模型学会选择性地仅激活其神经网络中最相关的专家路径,这种专业化极大地提高了模型的效率。目前,少数开发人员和企业客户可以通过AI Studio 和Vertex AI 的私人预览版在最多100 万个token 的上下文窗口中进行尝试,这意味着使用1.5 Pro 能够一次性处理海量信息,比如1 小时的视频、11 小时的音频、超过30,000 行的代码库,或是超过700,000 个单词。

      投资建议:Sora 以及Gemini 大模型的发布进一步推动了多模态大模型的进步,对于计算机板块而言,仍然从三个角度筛选公司:

      1)算法层面,重点关注科大讯飞、云从科技;2)应用层面,重点关注金山办公、新国都、万兴科技、虹软科技、熵基科技等;

      3)算力层面,重点关注海光信息、农尚环境、景嘉微、神州数码、中科曙光、寒武纪、浪潮信息等。

      风险提示:技术研发不及预期;下游景气度不及预期;生态建设不及预期;市场竞争加剧。