软件与服务行业研究:AI产业速递:OPENAI发布AIAGENT 应用落地加速进行时

类别:行业 机构:长江证券股份有限公司 研究员:宗建树/宋浪 日期:2025-01-24

  事件描述

      1 月25 日,OpenAI 发布了AI Agent 应用Operator。Operator 是一个面向浏览器的智能体,能够模拟人类操作计算机的能力,完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务。

      与传统Agent 和RPA 不同,Operator 的最大技术特点是无需依赖API 或特定网站就能完成所有自动化操作,它是通过对屏幕截图的分析,识别页面元素,然后使用鼠标和键盘进行模拟。

      事件评论

      Operator 基于OpenAI 新模型CUA 开发而成。CUA 模型由GPT-4o 模型提供底层赋能,并在GPT-4o 的基础上专门对视觉UI 界面的理解和交互进行了额外专项训练,因此Operator 无需依赖API 即可实现功能。尽管当前CUA 仍处早期阶段且面临一定局限性,但仍取得较为可观的SOTA 基准测试结果,在OSWorld 与WebArena 中分别实现38.1%及58.1%的任务成功率。目前Operator 仅限美国的Pro 用户使用,OpenAI 表示希望尽快将其集成到ChatGPT 中。

      Operator 可以实现自我纠错功能。与传统按键精灵不同的是,当Operator 预见错误或识别不明确时,可以根据大模型的推理能力进行实时修正。实在解决不了,会主动把控制权交给人类寻求帮助。

      在风险控制层面,Operator 也做出了防范措施。考虑到某些关键步骤可能存在风险或者不确定性,Operator 支持一套完善、安全的用户交互方案。每当涉及金钱交易、个人信息填写等敏感环节时,系统都会暂停当前操作并向用户发送通知,等待进一步指示。如果遇到无法解决的问题,Operator 也会主动向人类寻求帮助,不会盲目的尝试解决。

      AI Agent 落地加速,2025 有望成为Agent 应用元年。当前时点,国内外各厂商正加速Agent 产品迭代与应用落地路径探索,国内智谱曾于11 月的Agent OpenDay 上介绍最新一代AutoGLM,相较前一代产品可用性大幅提升;此次OpenAI 发布可联网自主完成任务的Operator,此外未来迭代进程有望加速,重点方向包括:1)将API 与CUA 结合,便于开发者构建自己的Agent;2)增强功能,应对更长更复杂的流程;3)拓展客户等。

      苹果、谷歌和 OpenAI 等科技巨头已经把Agent 视为2025 年的重点之一,2025 年或将成为Agent 爆发元年,进而带动AI 应用落地。

      投资建议:重视AI Agent+多模态产业机遇。AI Agent 应用探索的持续一方面有望加速大模型发展进程,此外或将改变AI 时代智能设备交互范式,建议关注三类产业机遇:(1)AI Agent 逐渐成熟,建议关注陪伴机器人、个人助理、企业助理场景的持续进展;(2)兼具场景&技术优势的垂类厂商,享受技术&工具逐渐完善下的场景升级红利;(3)建议关注技术优势厂商,以多模态为代表,有望深入更多场景拓宽业务边界,重点关注国产大模型领军企业:科大讯飞。

      风险提示

      1、AI 技术发展不及预期;

      2、下游应用需求不及预期。