AI产业速递(27)：GPT-4O正式发布人机交互、多模态融合理解能力大幅提升

类别：行业机构：长江证券股份有限公司研究员：宗建树/范超日期：2024-05-22

　　事件描述

    　　美国当地时间5 月13 日，OpenAI 在其春季更新中推出了最新的生成式 AI 模型 GPT-4o，该模型将在未来几周内分阶段集成至OpenAI 的各个产品之中，并免费提供给所有用户使用。

    　　事件评论

    　　GPT-4o 新增语音处理能力，语音交互更加流畅。此前，用户使用语音模式与ChatGPT对话的平均延迟为2.8 秒(GPT-3.5)和5.4 秒(GPT-4)，过长的响应等待时间，严重影响了对话的沉浸感。而GPT-4o 采用了全新的技术，让聊天机器人对话的响应速度大幅提升。

    　　在语音对话中，它最短可以在232 毫秒内响应音频输入，而平均相应时间仅为320 毫秒，这已经接近人类在日常对话中的反应时间。GPT-4o 近乎即时回应的使用体验，使用户对话更加自然。

    　　。

    　　同一神经网络处理不同信息，GPT-4o 多模态能力大幅提升。此前ChatGPT 的语音模式共由三个独立模型组成，第一个简单模型将音频转录为文本，GPT-3.5 或GPT-4 接收并输出文本，第三个简单模型再将该文本转换回音频。这一过程不仅导致信息大量丢失，也导致了响应时间过长。而GPT-4o 是跨越文本、视觉和音频训练的端到端的新模型，并由该模型中同一神经网络进行处理所有的输入和输出，这样使得GPT-4o 集成了语言、视觉和音频等多种能力，提升了多模态交互能力的上限。

    　　所有用户免费使用，GPT-4o 或将更大程度拓展OpenAI 用户基础。之前OpenAI 发布新版ChatGPT 模型时，往往需要用户付费后才能使用其新功能，而此次GPT-4o 将免费提供给所有用户，付费用户则可以享受五倍的调用额度。这一方面得益于GPT-4o API 性能的提升，速度更快的同时成本降低了50%。另一方面，或意味着面对愈发激烈的市场竞争，OpenAI 或将使用免费试用策略，扩大其在C 端的影响力。

    　　GPT-4o 的性能提升和免费开放有望推动大模型在各领域的应用。1）模型拟人化、陪伴属性增强，陪伴类相关产品类似虚拟人物聊天有望进一步升级；2）易用性提升、多模态融合多任务低门槛解决，虽然目前模型底层逻辑推理、数理能力是否大幅提升暂不可知，但是在教育的交互环节上，教育交互体验感大幅提升，预计低年级辅助教育类产品能有确定性升级，建议关注AI+教育龙头：科大讯飞；3）个人生活助手雏形出现，未来可能以手机、机器人等终端为端口实现交互，建议关注AI 终端产品定义进展（例如iPhone）、具身智能方向。

    　　风险提示

    　　1、多模态模型技术推进不及预期；

    　　2、多模态模型商业化落地的过程存在风险。

AI产业速递(27)：GPT-4O正式发布 人机交互、多模态融合理解能力大幅提升

数据推荐

AI产业速递(27)：GPT-4O正式发布人机交互、多模态融合理解能力大幅提升