华安证券·计算机行业研究:GEMINI发布 原生多模态与更强的理解能力

类别:行业 机构:华安证券股份有限公司 研究员:尹沿技/王奇珏 日期:2023-12-08

事件概况

      谷歌于12 月6 日发布了其新一代AI 大模型Gemini,主要特性包括但不限于:

      1)在基准测试中多项得分高于GPT-4V,并在视频、音频等项目中优势较大;2)原生多模态,并拥有更强的复杂推理能力;3)更细的产品分级,覆盖从云到端;4)人机协同编程成为现实;5)不同于英伟达产品的专用硬件支持。

    更细的产品定位划分,有望快速适配终端

      根据参数量和模型复杂度,Gemini 将分为Ultra、Pro 和Nano 三个子系列,覆盖从数据中心到手持智能终端。在谷歌服务框架的普及率和完善度的加持下,Gemini 有望快速投入终端市场。Gemini Pro 的微调版本将用于Bard 进行更高级的推理、计划、理解等。Pixel8 Pro 是首款专为GeminiNano 设计的智能手机,可在录音机中的“汇总”和Gboard 中的“智能回复”等功能中使用。

    颠覆性的多模态训练方式

      不同于现有主流大模型的训练方式,即通过为不同的模态训练单独的组件,然后将它们拼接在一起以粗略地模仿其中的一些功能,Gemini从一开始就对不同的模态进行预训练,再用额外的多模态数据对其进行了微调,以进一步完善其有效性,这能帮助Gemini 从头开始无缝地理解和推理各种输入信息,使其能够有更加亮眼的理解表现。

    从跑分结果来看,表现不逊于GPT-4v

      谷歌官方从自然图像、音频和视频理解到数学推理,Gemini Ultra 在大型语言模型 (LLM) 研发中使用的 30 个广泛使用的学术基准中的 32 个方面,其性能超过了当前最先进的结果,并在MMLU(大规模多任务语言理解)中超过了人类专家。以上表现从理论层面充分说明了Gemini 的不俗能力,有望跻身一线并挑战GPT 系列。

    独立于英伟达的硬件支持

      有别于传统大模型对英伟达硬件及生态的依赖,Gemini 的训练来自于谷歌的TPU v4 和 v5e 的硬件支持。与此同时,谷歌也顺势宣布推出迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 CloudTPU v5p,将用于更高层次的ai 开发。我们认为,随着大模型领域软硬件互促,未来硬件生态也有望实现进一步丰富,摆脱对单一生态和单一硬件供应商的依赖。

    风险提示

      1)政策落地不及预期;2)技术突破不及预期;3)供应链波动大,影响科技企业发展。