AI应用正当时:豆包2.0发布 开启现实任务处理新起点
事件描述
2 月14 日,火山引擎正式发布豆包大模型2.0 系列。自推出豆包大模型以来,火山引擎大模型日均Tokens 使用量已增长超500 倍。
事件评论
多模态理解能力全面升级,空间和运动理解大幅提升。(1)多模态:数学与视觉推理19项基准12 项第一,视觉感知、文档理解、长上下文大部分基准SOTA,EgoTempo 超过人类分数;(2)视频场景中对“变化、动作、节奏”这类信息的捕捉更为稳定,在工程侧可用性更高,尤其是长视频场景中,豆包大模型2.0 在大部分评测上超越了其他顶尖模型,且在多个流式实时问答视频基准测试中表现优异,可应用于健身、穿搭等陪伴场景。
LLM 与Agent 表现大幅强化,真实长程任务执行能力提升。豆包大模型2.0 还在推理、多轮指令遵循、搜索、工具调用、输出格式稳定性等方面进行大幅增强。(1)LLM 科学能力:HealthBench 第一,SuperGPQA 超GPT-5.2,整体与Gemini 3 Pro、GPT-5.2 相当。(2)推理和Agent 能力评测中,豆包2.0 Pro 在HLE-text 上取得54.2 高分,领跑全球;在国际数学奥赛(IMO)测评集上超越Gemini 3 pro,展现强劲的数学和推理能力;在工具调用MCP-Mark 和指令遵循Multi-Challenge 也有出色表现。
灵活的模型选择:包含Pro、Lite、Mini 三款多模态通用模型,以及面向开发者的Code模型。(1)Pro:旗舰全能,面向复杂推理与长链路Agent 任务;(2)Lite:均衡型,综合能力超Seed 1.8,兼顾质量与速度;(3)Mini:低时延高并发,256k 上下文,4 档思考长度;(4)Code:编程加强版,适配Claude Code 等IDE 工具链。四款模型均支持文字、图片、视频输入,文字输出。
定价比海外模型低约一个数量级。每百万tokens/元定价如下:(1)Pro:输入3.2 元,输出16 元,缓存命中0.64 元;(2)Lite:输入0.6 元,输出3.6 元,缓存命中0.12 元;(3)Mini:输入0.2 元,输出2 元,缓存命中0.04 元;(4)Code:输入3.2 元,输出16 元,缓存命中0.64 元。
开启现实任务处理新起点。我们认为,豆包2.0 的升级是在尝试让模型具备更接近真实世界的输入理解能力。推理能力提供决策结构,多模态感知提供现实世界的上下文,两者叠加,才让Agent 不再只是处理文本任务,而是能够进入更复杂的生产场景。当模型既能稳定思考,又能真实感知时,所谓“端到端执行”才真正有了可落地的基础。
2026 年模型正式进入需求时代。国内模型之前API 价格大幅低于海外,伴随模型逐步追赶好用性实用性提升正式进入需求驱动时代。智谱模型涨价验证新时代开启,国内模型厂商MaaS 业务有望迎来大爆发,毛利率有望快速提升。同时模型的变化有望驱动云基础资源及国产算力。
风险提示
1、AI 技术发展不及预期;
2、下游应用需求不及预期。


