计算机行业周报:AI AGENT:从API到GUI交互 OPERATOR重塑流程化

类别:行业 机构:德邦证券股份有限公司 研究员:陈涵泊/李佩京/王思 日期:2025-01-25

  OpenAI 首款AI 智能体Operator 发布,依托CUA 模型取得全新的SOTA。北京时间1 月24 日凌晨,OpenAI 首款AI 智能体Operator 亮相。Operator 由Computer-Using Agent(CUA)新模型提供支持,它能够代理用户执行基于网页的操作,直接与网页交互——像人类一样点击、滚动和输入文字,自动执行各种复杂操作,包括编写代码、预订餐厅、购物等。期间,用户可以添加其他指令和随时接管控制,Operator 还可以同时运行多项任务,并在关键操作中会要求用户确认。目前,Operator 已面向美国Pro 套餐用户开放,下一步将扩展至Plus、Team 以及Enterprise 用户,并在未来将相关功能集成至ChatGPT 当中。OpenAI 表示,CUA仍处于早期阶段且存在局限性,但仍取得了最新的SOTA。在OSWorld 上实现38.1%的完整计算机使用任务成功率,在WebArena 上实现了58.1%的成功率,在WebVoyager 上实现87%的Web 端任务。

      Operator 融合视觉识别与高级推理,跨越API 实现复杂步骤规划。早在2024 年10 月,Anthropic 推出革命性功能——Computer use,可通过API 即可实现AI 与PC 交互。此次CUA 将GPT-4o 的视觉功能与通过强化学习获得的高级推理相结合,经过训练可以与图形用户界面(GUI,即人们在屏幕上看到的按钮、菜单和文本字段)进行交互。也就是,Operator 可以对浏览器进行“查看”(通过屏幕截图)、和“交互”(使用鼠标和键盘支持所有操作),因此能够在Web 之上执行操作且无需自定义API 集成。一旦遭遇难题或者错误,Operator 还可利用其推理能力实现自我纠正。具体地,Operator 通过以下三步循环迭代完成操作。1)感知:计算机的屏幕截图被添加到模型的上下文中,提供计算机当前状态的视觉快照;2)推理:

      使用思路链推理后续步骤,同时考虑当前和过去的屏幕截图和操作;3)行动:执行操作(单击、滚动或键入),直到它决定任务已完成或需要用户输入。

      AI Agent 将是生成式AI 的下一个前沿,2024 年市场规模达50 亿美元。据《科创板日报》不完全梳理,国内外科技大厂转向AI Agent。微软在其Dynamics365 平台一口气推出10 个自主AI 智能体,称相当于187 名全职员工的产出;谷歌发布号称“智能体时代”最强大模型Gemini 2,提供多模态开发接口,让智能体能“看懂”物理世界;华为公布了一项可让AI 像人类一样操作手机的新研究成果。而在Operator 发布当日,智谱将GLM-PC 1.0 升级至GLM-PC 1.1,深度融合多模态模型CogAgent 与代码模型CodeGeex,以代码形式指挥工作流程和工具调用,并强化了深度思考模式下的规划、推理、反思能力。我们认为,随着龙头厂商接连入局,AI Agent 将加快技术迭代,充分挖掘下游应用场景,具备广阔的发展空间。根据Markets & Markets 的预测,到2030 年,AI 代理的市场规模将从2024 年的50 亿美元激增至470 亿美元,年均复合增长率为44.8%。

      投资建议。建议关注:博睿数据、泛微网络、金蝶国际、鼎捷数智、汉得信息、彩讯股份、梦网科技、致远互联、普联软件、金证股份、中科创达、普元信息。

      风险提示:技术迭代不及预期、AI Agent 商业化不及预期、地缘政治冲突等。