信息服务行业跟踪报告:GPT-4O人机交互能力大幅提升 模型可用性提高或带来AI商业落地持续加速

类别:行业 机构:海通证券股份有限公司 研究员:杨林/杨蒙 日期:2024-05-22

GPT-4o 正式发布,人机交互能力大幅提升。根据OpenAI 官网,当地时间2024年5 月13 日,OpenAI 发布 GPT-4o。GPT-4o 是向更自然的人机交互迈出的一步,接受文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。根据传统基准衡量,GPT-4o 在文本、推理和编码智能方面的性能达到 GPT-4 Turbo 的水平,同时在多语言、音频和视觉能力方面创下新高。

    GPT-4o 能在 232 毫秒内对音频输入做出反应,平均反应时间为 320 毫秒,与人类在对话中的反应时间(在新窗口中打开)相近。在英语和代码文本方面,GPT-4o 的性能与 GPT-4 Turbo 相当;在非英语语言文本方面,GPT-4o 有显著提高,同时在应用程序接口(API)方面,GPT-4o 速度更快,价格便宜 50%。

    与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。在 GPT-4o 之前,用户可以使用语音模式与 ChatGPT 通话,平均延迟时间为 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4)。此前的语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。作为主要的智能源的 GPT-3.5 或GPT-4 会丢失部分信息,因为GPT-3.5 或GPT-4 不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。GPT-4o 则是OpenAI 在文本、视觉和音频方面端到端训练新的模型,所有输入和输出由同一个神经网络处理。同时,由于 GPT-4o 是OpenAI 第一个结合所有模式的模型,OpenAI 在探索该模型的功能及其局限性方面仍处于起步阶段。我们认为,GPT-4o 人机交互能力大幅度提升有助于推动大模型的普及,大模型落地速度或持续提升。

    全面考量模型的安全性,GPT-4o 的安全性大幅度提升。GPT-4o 通过过滤训练数据和通过后期训练完善模型行为等技术,在设计中就考虑到各种模式的安全性。OpenAI 还创建了新的安全系统,为语音输出提供保护。其次,OpenAI 根据准备框架和自愿承诺对 GPT-4o 进行了评估。OpenAI 对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的得分均未超过中等风险。这项评估包括在整个模型训练过程中运行一套自动和人工评估。OpenAI使用自定义微调和提示对模型的安全缓解前版本和安全缓解后版本进行测试,以更好地激发模型的能力。再次,GPT-4o 还与社会心理学、偏见和公平性以及错误信息等领域的 70 多名外部专家进行广泛的外部红队合作,以识别新增加的模式所带来或放大的风险。OpenAI 利用这些经验制定安全干预措施,以提高与 GPT-4o 互动的安全性。我们认为,GPT-4o 安全性大幅度提升在一定程度上缓解了对大模型在安全方面的担忧,有利于推动大模型在更多领域落地。

    模型可用性持续提升,深度学习方面进展迅速。根据OpenAI 官网,GPT-4o 是OpenAI 在推动深度学习发展中迈出的最新一步,是朝着实际可用性的方向发展的。过去两年中,OpenAI 花费大量精力,致力于提高堆栈每一层的效率。作为这项研究的第一个成果,OpenAI 能够更广泛地提供 GPT-4 级模型。GPT-4o 的功能将逐步推出(从当地时间5 月13 日开始扩大红队访问权限)。GPT-4o 的文本和图像功能当地时间5 月13 日开始在 ChatGPT 中推出。OpenAI 将在免费层和 Plus 用户中提供 GPT-4o,信息限制最高可提高 5 倍。未来几周,OpenAI 将在 ChatGPT Plus 中推出带有 GPT-4o 的新版语音模式alpha。开发人员目前可以在 API 中以文本和视觉模式访问 GPT-4o。与 GPT-4 Turbo相比,GPT-4o 速度快 2 倍,价格便宜一半,速率限制高 5 倍。OpenAI 计划在未来几周内,在 API 中向部分值得信赖的合作伙伴推出对 GPT-4o 的新音频和视频功能的支持。我们认为,GPT-4o 模型性能大幅度提升,价格大幅度下降,有望使得大模型商业普及进一步加速。

    风险提示:AI 技术发展不及预期的风险,AI 商业化落地不及预期的风险。