AI产业速递(27):GPT-4O正式发布 人机交互、多模态融合理解能力大幅提升

类别:行业 机构:长江证券股份有限公司 研究员:宗建树/范超 日期:2024-05-22

  事件描述

      美国当地时间5 月13 日,OpenAI 在其春季更新中推出了最新的生成式 AI 模型 GPT-4o,该模型将在未来几周内分阶段集成至OpenAI 的各个产品之中,并免费提供给所有用户使用。

      事件评论

      GPT-4o 新增语音处理能力,语音交互更加流畅。此前,用户使用语音模式与ChatGPT对话的平均延迟为2.8 秒(GPT-3.5)和5.4 秒(GPT-4),过长的响应等待时间,严重影响了对话的沉浸感。而GPT-4o 采用了全新的技术,让聊天机器人对话的响应速度大幅提升。

      在语音对话中,它最短可以在232 毫秒内响应音频输入,而平均相应时间仅为320 毫秒,这已经接近人类在日常对话中的反应时间。GPT-4o 近乎即时回应的使用体验,使用户对话更加自然。

      。

      同一神经网络处理不同信息,GPT-4o 多模态能力大幅提升。此前ChatGPT 的语音模式共由三个独立模型组成,第一个简单模型将音频转录为文本,GPT-3.5 或GPT-4 接收并输出文本,第三个简单模型再将该文本转换回音频。这一过程不仅导致信息大量丢失,也导致了响应时间过长。而GPT-4o 是跨越文本、视觉和音频训练的端到端的新模型,并由该模型中同一神经网络进行处理所有的输入和输出,这样使得GPT-4o 集成了语言、视觉和音频等多种能力,提升了多模态交互能力的上限。

      所有用户免费使用,GPT-4o 或将更大程度拓展OpenAI 用户基础。之前OpenAI 发布新版ChatGPT 模型时,往往需要用户付费后才能使用其新功能,而此次GPT-4o 将免费提供给所有用户,付费用户则可以享受五倍的调用额度。这一方面得益于GPT-4o API 性能的提升,速度更快的同时成本降低了50%。另一方面,或意味着面对愈发激烈的市场竞争,OpenAI 或将使用免费试用策略,扩大其在C 端的影响力。

      GPT-4o 的性能提升和免费开放有望推动大模型在各领域的应用。1)模型拟人化、陪伴属性增强,陪伴类相关产品类似虚拟人物聊天有望进一步升级;2)易用性提升、多模态融合多任务低门槛解决,虽然目前模型底层逻辑推理、数理能力是否大幅提升暂不可知,但是在教育的交互环节上,教育交互体验感大幅提升,预计低年级辅助教育类产品能有确定性升级,建议关注AI+教育龙头:科大讯飞;3)个人生活助手雏形出现,未来可能以手机、机器人等终端为端口实现交互,建议关注AI 终端产品定义进展(例如iPhone)、具身智能方向。

      风险提示

      1、多模态模型技术推进不及预期;

      2、多模态模型商业化落地的过程存在风险。