软件与服务点评报告:AI应用正当时:CLAUDE OPUS4.6与GPT-5.3-CODEX同时发布 看好AGENT落地进展
事件描述
北京时间2 月6 日凌晨,Anthropic 与OpenAI 相继推出了新版本基础大模型,分别是ClaudeOpus 4.6 与GPT-5.3-Codex。
事件评论
Claude Opus4.6:Anthropic 首个1M 上下文模型,开启企业AI Agent 落地新阶段。
(1)智力上,智能体编码评估工具Terminal-Bench2.0 中取得最高分,HLE 领先于所有其他前沿模型。(2)维持更长时间的自主工作流程;(3)上下文能力提升:首次拥有1M上下文窗口,能够处理和推理比以往版本多得多的信息。(4)Multi-Agent 能力提升:引入类似于Kimi K2.5 的“智能体团队”功能,允许多个AI 智能体同时处理编码项目的不同方面并进行自主协调,Cowork 环境下可自主执行多任务,代表人类完成财务分析、研究、文档/表格/演示文稿处理等工作。(5)可直接处理企业级高价值任务:在金融法律场景测试(GDPval-AA)中比GPT-5.2 高出约144 个Elo 分数,比其前代(Opus4.5)高出190 分。此外,Opus4.6 在BrowseComp 测试(衡量模型在线查找难寻信息的能力)也优于其他所有模型。(6)定价保持不变,输入$5 /M token,输出$25 /M token。
GPT-5.3-Codex:顶级编码性能×全流程智能体协作,深度参与自身开发,有望加速企业研发与知识工作自动化落地。(1)SWE-Bench Pro(56.8%)和Terminal-Bench 2.0(77.3%),刷新纪录。运行速度提升25%,token 消耗更少,支持长时间复杂任务。具备从编码到调试、部署、测试、文档编写等整个软件生命周期的执行能力。(2)BeyondCoding:实现工作助理Agent,支持软件生命周期中的所有工作,允许实时互动、语音播报、反馈响应,让用户 全程掌握流程并指导智能体。(3)已纳入ChatGPT 付费套餐,API 仍有待开放。
随着模型能力的不断增强,差距不再仅仅在于智能体能够做什么,而是在于人类如何轻松地与多个并行工作的智能体进行交互、指导和监督(真正嵌入工作流)。OpenAI 表示,GPT-5.3-Codex 的训练和部署使用了Codex,OpenAI 的许多研究人员和工程师都表示,他们现在的工作与两个月前相比发生了根本性的变化。
在未来加入AI 的工作流程中,人的角色已经从编写代码转变为构建让AI 能够编写代码的环境。近期Clawdbot、Cowork 爆火,我们认为北美应用有望进入全面代理时代,原因在于原来的ToC/ToB 软件以人为核心,现在核心变为了机器(Agent),AI 执行任务提效让所需单位劳动力变少,商业模式变化的同时海外SaaS 巨头的产品还未迅速转身,因此担忧加剧。我们认为北美会逐渐出现新品发布潮以及龙头收购潮,一旦海外龙头出现并购或者自身AI 原生产品营收超过一定占比,有望迎来北美SaaS 投资重大机遇点。国内AI应用继续坚定看好,围绕大厂及其链条、Agent 场景卡位龙头布局,看好大厂超级入口、Agent、多模态和Infra。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。


