人工智能十年展望(十六):成本决定落地节奏 大模型轻量化、线性化趋势渐起

类别:行业 机构:中国国际金融股份有限公司 研究员:于钟海/魏鹳霏/王之昊/游航 日期:2024-02-23

  投资建议

      2023 年ChatGPT引领产业界高度重视,产业落地节奏成为核心关注点。我们于2021 年在《人工智能十年展望(二)》提出边际成本决定竞争力,并提出大模型的泛化能力有望从算法侧解决这一问题。即便如此,在产业趋势起点,我们看到海外WAU~1,000 万的应用Perplexity基于微调GPT-3.5的算法成本约为4,500 万美元/年;国内智谱GLM-4 的API调用价格约为50元/百万中文字符,成本依然是阻碍应用落地的核心矛盾。我们持续看好Transformer之外的模型轻量化、线性化的应用前景,将在本文对两大趋势进行探讨,有望为模型降本、应用落地、端侧部署带来新的可能。

      理由

      算法框架革新为AI应用降本、大规模落地的有效路径。算力成本在摩尔定律指引下具备下降趋势外,如何在保证性能的同时降低成本,是AI大规模落地的首要问题。轻量化和线性化以不同思路显著提升计算效率,为算法革新提供思路,我们认为有望以降低成本逻辑打开AI应用普及天花板。

      轻量化:以小型化为基,混合专家模型(MoE)为主流路线,通过稀疏化优化性能与计算效率。小型化模型以Mistral-7B、GeminiNano、面壁MiniCPM、Gemma 为代表,基于十亿级参数量,通过高质量AI 基础设施、高效训练方法与优质数据集优化模型性能,降低大模型的使用门槛。MoE 在模型小型化基础上兼具灵活性与准确性,以激活部分参数的稀疏特点提升推理速度,进一步降低模型成本。

      Mixtral 8*7B 以12.9B 推理参数量达到媲美GPT-3.5 的性能,Gemini1.5 Pro 性能对标Gemini 1.0 Ultra,验证了MoE 的潜力。

      线性化:兼具RNN 与Transformer 优势,或为大模型时代下的降本破局之道。循环神经网络(RNN)将历史序列信息压缩至固定大小的隐藏状态中,具有线性复杂度,但具备无法并行训练的明显不足;Transformer 模型引入自注意力机制,具有二次方的推理复杂度,计算成本较高。在此背景下,线性化路径取二者优势,衍生出线性注意力方法与选择性状态空间方法,代表模型为RWKV、RetNet 与Mamba,即通过压缩上下文信息实现线性复杂度、并结合Transformer 并行训练,显著提升训练效率、压缩落地成本,我们认为线性化路径对大模型的端侧落地及广泛应用具有重要意义。

      盈利预测与估值

      维持行业内覆盖公司的盈利预测、估值和目标价不变。

      风险

      算法落地过程中的内存、微调挑战,提示工程依赖度提升。