传媒行业研究:OPENAIO1模型发布 强化学习有望突破SCALINGLAW瓶颈

类别:行业 机构:太平洋证券股份有限公司 研究员:郑磊 日期:2024-09-19

  报告摘要

      OpenAI o1 新系列模型发布,包括o1 预览版和o1-mini9 月13 日OpenAI 发布o1 新系列模型,即为此前曾透露的草莓模型。

      由于相较GPT 系列模型,o1 系列模型更擅长推理并解决科学、编程、数学领域的复杂问题,因此OpenAI 将模型名称重置回数字1,并命名为o1。o1 新系列模型包括o1、o1 预览版和o1-mini,此次仅发布了o1 预览版和o1-mini,o1 上线时间未定。

      通过生成思维链,o1 模型具备更强的推理能力o1 模型是运用强化学习训练的新型语言模型。类比于丹尼尔·卡尼曼提出的人类大脑的两个思考系统,即依赖直觉和经验、快速且无意识的系统1 和深思熟虑、谨慎且有意识的系统2,o1 模型的发布意味着大模型从运用系统1 发展到了运用系统2。表现在使用过程中,即为大模型不再是对问题做出即刻响应,而是先进行一定时间的思考,生成解释推理过程的内部思维链。

      通过思维链,o1 模型能对问题做出结构化的思考和推理,而不再像之前通过大量非结构化的文本数据进行模型训练,模型仅能根据上下文内容生成答案。并且通过强化学习,o1 模型能不断尝试直到找到正确的解答思路、完善思维链、学会识别和纠正错误等。这一改变极大地提高了模型的推理能力,o1 预览版在数学和编程竞赛测试中的得分较GPT-4o 提升约5-6 倍,o1 则提升约8-9 倍,在博士级的科学问题测试中,o1 预览版和o1 均超过了人类专家水平。

      o1 模型响应时间更长,使用次数有限

      在使用上,目前o1 主要为以文本形式进行问题的分析解答,仍不具备浏览网页信息、上传文件和图像等ChatGPT 已有的功能。从官方演示视频来看,o1 预览版单次响应时间为32 秒,o1-mini 为9 秒,长于GPT 系列。o1 预览版和o1-mini 已在发布当天逐步向ChatGPTPlus 和Team 用户开放,但使用次数有所限制,o1 预览版每周30 条,o1-mini 每周50 条。并且从下周开始,这两款模型也将向ChatGPT企业版和高校版用户开放。未来OpenAI 考虑将o1-mini 向所有免费用户开放。在API 调用方面,符合条件的开发者可调用o1 预览版和o1-mini 的API,o1-mini 的价格比o1 预览版便宜80%。

      强化学习有望突破Scaling Law 瓶颈

      OpenAI 发现随着强化学习规模(训练时间计算)和思考时长(测试时间计算)的提升,o1 模型性能持续提高。这意味着除了增加训练数据数量,模型性能还可通过同时增加推理时长实现提升。ScalingLaw 的范式正在向推理环节发展,并且扩展这一方法的限制与此前预训练方法的限制不同,目前仍在继续探索和研究中。我们认为,OpenAI 一直是AI 技术的先行者,o1 模型的发布及强化学习方法的提出有望加速产业内其他公司对该方法的探索,突破Scaling Law的发展瓶颈。

      核心观点

      我们认为,目前传媒指数已回落至2023 年AI 行情起涨点,随o1 模型发布及后续强化学习对大模型技术路径发展的突破,有望迎来海外AI 产业催化。建议关注:1)AI 模型:昆仑万维;2)文字IP:中文在线;3)AI 视频工具:上海电影、博纳影业,华策影视、因赛集团;4)AI 游戏:掌趣科技、巨人网络等。

      风险提示

      AI 技术发展不及预期的风险、政策监管风险、行业竞争加剧的风险。