软件及服务行业:AI动态跟踪:OPENAI引领AI交互新纪元 发布突破性无延迟多模态GPT-4O模型

类别:行业 机构:中国国际金融股份有限公司 研究员:于钟海/王之昊/魏鹳霏 日期:2024-05-15

  行业近况

      5 月13 日,OpenAI发布新款旗舰模型GPT-4o(“o”代表“omni”,即“全能”之意),支持实时音频、图像、文本无延迟交互,较GPT-4 Turbo在多模态能力、使用成本、生成速率等方面显著优化。

      评论

      GPT-4o无延迟语音交互功能亮眼,性价比优化赋能AI开发生态。GPT-4o通过大幅提升的响应速度(平均320 毫秒)和逼真的语态,使得与AI的交流速度几乎与人类对标1。GPT-4o在英文文本和代码能力方面和GPT4-Turbo持平,但在非英文文本、图像和音频理解能力等方面大幅跃升,且其API性能提升显著,生成速度是GPT-4 Turbo的2 倍,价格减半,而速率限制提升了5 倍2,为开发者提供了更高效、成本效益更高的服务。

      GPT-4o多模态交互能力提升,可实现三模态无缝转换。GPT-4o具备卓越的多模态能力,基于端到端神经网络改进,实现了文本、音频和图像之间的无缝转换,助推人机交互维度进一步提升,其能够无延迟地在不同语言之间进行转换,并还能通过视频识别人类面部表情,进一步增强了AI的实用性和互动性。此外,我们认为OpenAI的免费开放策略,加上新UI和桌面应用的推出,或将赋能AI应用开发门槛进一步降低。

      GPT-4o或已实现多模态架构重要升级,模型迭代助推复杂AI应用落地。从GPT-o的演示效果来看,我们判断其可能已经实现支持多种模态统一输入输出的模型架构,可能是通过对任意模态Tokenize化的方式来进行实现,这也是先前Gemini等其他模型都在追求的“上限更高”的多模态模型路线,我们在《人工智能十年展望(十七):大模型兴起之后,多模态涌现之前》中也有所讨论。我们认为GPT-4o的多模态能力给予了其在人机交互以及复杂任务处理上更高的上限,或将有利于AI Agent、机器人、复杂AI终端等复杂AI应用场景的成熟迭代。

      估值与建议

      维持行业内覆盖公司的盈利预测、估值和目标价不变。我们预计GPT-4o发布短期或将对AI应用赛道带来情绪催化,持续推荐AI应用赛道中的各细分龙头,尤其是多模态和端侧AI相关应用领域,在前期调整较久的情况下建议积极关注。

      风险

      技术进展不及预期;应用落地不及预期;行业竞争加剧。