传媒互联网周报:OPENAI推出音频模型 腾讯发布混元T1

类别:行业 机构:太平洋证券股份有限公司 研究员:郑磊 日期:2025-03-23

  报告摘要

      OpenAI 推出3 款音频模型,实现语音情绪自定义OpenAI 推出全新语音转文本模型gpt-4o-transcribe 和轻量版gpt-4o-mini-transcribe,以及文本生成语音模型gpt-4o-mini-tts。其中,语音转文本模型gpt-4o-transcribe 基于GPT-4o 架构,运用音频数据集进行大量预训练,较此前推出的Whisper 拥有更准确的识别能力,尤其在涉及口音、嘈杂环境和不同语速的复杂场景中。从测评结果来看,该模型在大多数主要语言上的表现都优于其他模型,获得了更低的词错误率。文本生成语音模型gpt-4o-mini-tts 除了文本转语音功能外,还可在固定音色的基础上,实现情绪、语调、语速、措辞、语句停顿五方面的自定义选择,生成不同情绪的语音内容。

      目前,上述三款模型均已开放API,为全球开发者构建语音Agent 提供支持;且定价较低,分别为0.6 美分/分钟、0.3 美分/分钟、15 美分/分钟。从应用场景来看,模型可应用于电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注拥有相关应用场景的公司,如:1)智能客服或助手:

      焦点科技;2)广告营销:因赛集团、引力传媒、蓝色光标、天娱数科;3)教育:佳发教育、科大讯飞;4)情感陪伴应用/玩具:恺英网络、奥飞娱乐;5)影视:华策影视、博纳影业;6)游戏:巨人网络、掌趣科技等。

      腾讯发布混元T1 模型,实现超长文本推理、解码速度提升腾讯发布自研深度思考模型混元T1 正式版,该模型具有超长文本推理强、生成速度快的优势。从性能来看:1)超长文本:通过架构优化,有效解决长文推理中常见的上下文丢失和长距离信息依赖问题,强化T1 长文本捕捉和推理能力。2)解码速度:通过长序列处理的专项优化,实现相近参数量下解码速度提升2 倍,达到首字秒出、吐字速度高达60-80token/s。从测评结果来看,T1 在MMLU-pro、AIME 等数学、逻辑推理测试中,成绩达到业界领先水平。从成本来看:T1 沿用了混元Turbo S 的Hybrid-Mamba-Transformer 混合架构,有效降低Transformer 架构的计算复杂度,实现训练和推理成本下降。从API 定价来看:模型每百万tokens 输入1 元,输出4 元;与DeepSeek-R1 优惠时段一致,仅为标准时段价格的1/4(输入价格对比缓存未命中)。

      核心观点

      我们认为,音频模型gpt-4o-mini-tts 通过用户自定义语音情绪、语调、语速等,使得语音生成更灵活、更高效匹配不同场景的应用需求。利好拥有相关应用场景的公司,如电商智能客服或助手、广告营销音频制作、教育语言学习、情感陪伴、影视及游戏内容配音等。建议关注:1)AI+广告营销:因赛集团、天娱数科;2)AI+影视:博纳影业;3)AI+游戏:恺英网络、巨人网络等。此外,国内推理模型持续迭代,腾讯自研混元T1 进一步提升模型推理、超长文本处理、生成速度等能力,有效降低模型成本。

      风险提示

      AI 技术发展不及预期的风险、政策监管的风险、行业竞争加剧的风险。