AI应用正当时:智谱发布GLM-5V-TURBO 看好多模态商业化落地继续加速
事件描述
4 月2 日,智谱推出GLM-5V-Turbo,定位面向视觉编程打造的多模态Coding 基座模型,200K上下文窗口,定价与GLM-Turbo 相同。
事件评论
原生多模态Coding 基座,从预训练阶段深度融合视觉与文本能力,实现从视觉感知到代码生成的端到端闭环。与以往外挂视觉模块的模型不同,模型实现视觉与语言从底层统一建模,天然具备理解图片内容并基于视觉信息推理决策的能力。模型上下文窗口扩展至200K,同时GLM-5V-Turbo 支持多模态搜索、画框、截图、读网页等工具,将感知-行动链路从纯文本延伸至视觉交互,完整支撑“看懂环境→规划动作→执行任务”的闭环。
模型在多模态核心基准中取得领先,同时纯文本能力未出现退化。前端能力方面,在Design2Code 中拿到94.8,超越Kimi K2.5(91.3 分);BrowseComp-VL 得分51.9,显著领先Kimi K2.5(42.9 分)和Opus 4.6(35.9 分)。纯文本Coding 方面,CC-Bench-V2 三项测试稳定。性能领先源于:1)多模态融合训练:从预训练阶段深度融合文本与视觉,后训练多模态协同;2)RL:30+任务协同强化学习,缓解单领域不稳定性;3)数据:
Agentic 数据构建多层级体系;4)多模态工具链新增画框、截图、读网页等工具,强化与龙虾协同。内测中字节、美团、快手等给予高度评价:TRAE 称“实现了从设计稿到代码的完整还原”;美团表示“编程能力仍属国内第一梯队”。
与Claude Code、AutoClaw 等Agent 深度协同,为其赋予视觉能力,大幅拓宽龙虾场景任务边界。在典型应用场景,模型能够实现图像即代码:1)支持前端复刻,发送草图、设计稿或网站录屏即可理解布局、配色、组件层级,生成完整可运行的前端工程,准确还原版式、动效等视觉细节;2)支持GUI 自主探索复刻,结合Claude Code 等框架,模型能自主探索目标网站,浏览页面结构、梳理跳转关系、采集视觉素材与交互细节,直接生成代码复现整个站点;3)实现交互式编辑,按需增加页面模块、修改文案样式、调整布局结构,并补充按钮反馈、弹窗切换等交互功能,实现可视化迭代编辑。同时“为龙虾安上眼睛”:AutoClaw 已上线“股票分析师”Skill,利用GLM-5V-Turbo 的原生视觉能力,直接看懂K 线走势、估值区间图和券商研报图 表,输出图文研报,垂直场景能力进一步增强。
模型发布正在加速,多模能力不断补全,有望驱动Token 需求拐点加速与国产模型商业化向上。随着多模态Coding 能力持续落地,视觉理解、代码生成与推理调用将带动token需求持续释放。重点关注国产芯片、云侧MaaS 平台在Token 爆发下的持续景气与盈利改善。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。


